本节依据图1-19所示的网络舆情监测模型,对舆情监测过程中涉及的关键技术、热点研究问题做简单介绍,使读者深入认识舆情监测的实现过程。
1.网络舆情采集和提取技术
网络舆情通过不同的舆情传播平台形成、传播,这些平台呈现的主要是动态的网页,提供的信息也是零散、非结构化的信息,如何有效提取这些信息是一个热点研究问题。当前的网络爬虫工具均是基于一定的信息提取理论设计实现的,其中一个代表性的信息抽取技术为:基于Wrapper理论实现动态网页的数据抽取与集成。
2.网络舆情话题发现与追踪技术
在不同的网络平台中,网民讨论的问题各种各样,内容涉及生活的方方面面,如何将杂乱的信息捋顺,并找出其中的热点话题是舆情监测领域的一个热点研究分支。早期的话题识别技术的代表性研究成果来自Allan[26],其在相关研究中考虑到信息检索与话题识别的共性,尝试将较为成熟的信息检索技术移植到话题识别中,并实验验证了其合理性。话题追踪技术是话题识别技术的有效补充,即追踪已有话题的相关新闻报道、充实话题内容、实现话题的有效演化。本书的核心研究内容隶属于话题识别与追踪,故第2章将对该技术做详细介绍。
3.网络舆情倾向性分析技术(www.xing528.com)
通过对网络舆情进行倾向性分析,可以了解舆情传播者的情感、态度、观点、立场等。舆情倾向性分析实现的关键是对用户情感的提炼,主要依据计算机技术实现。《2018年中国互联网舆情分析报告》针对2018年度20个热点话题,对网民进行了七种情绪分析,分析结果如图1-20所示。通过这些情绪分析,可以帮助相关部门及时了解民意,为相关政策的制定提供依据。
图1-20 2017~2018年网民七种基本情绪走势[1]
4.多文档自动摘要技术
在各种网络平台中包含很多垃圾信息,多文档自动摘要的目的是自动对这些平台的信息进行过滤、提炼,获取能准确表达有价值信息的文摘,便于后期的信息查询和获取。文摘是全面、准确地反映内容的简单连贯短文,该短文将文本作为句子的线性序列,将句子视为词的线性序列。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。