网络舆情的监控主要依托网络舆情的监测系统得以实现。网络舆情监测系统是政府机构、企事业等单位和个人在互联网和大数据时代进行舆情监测、分析和管理的智能化平台。[10]互联网与移动互联网中,民众的言论随时随地地发生,通过网络舆情监测系统实时收集、挖掘、分析、研判与政府及企业相关的各种舆情信息,能够为政府和企业提供最接近民意的决策参考。网络舆情监测系统一般分为:舆情信息采集系统、舆情信息储存系统、舆情信息分析系统、舆情信息管理系统四个子系统。
(一)舆情信息采集系统
舆情信息采集系统是网络舆情监测系统的基础。该系统通过互联网的搜索引擎技术,通过编写爬虫程序对互联网及移动互联网上的海量数据进行有针对性的、行业性的、精准性的数据抓取,并按照一定规则和筛选标准进行简单的数据抽练和数据归类,最终形成数据文件库。
目前舆情信息采集采用的技术主要是利用垂直搜索引擎基础的网络爬虫。网络爬虫是通过网页链接地址来寻找网页的,即从网站某一页面(通常是首页)开始,读取网页内容并找到网页中其他链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络爬虫就可利用这个原理把互联网上所有网页都抓取下来,从而实现国内外各种互联网信息的采集。在此基础上,舆情信息采集系统能够根据互联网发展情况做到功能扩充,适应对不同网络平台和不同网络内容的获取。比如支持大规模、分布式的数据采集对不断变化的网站、新媒体网络信息进行采集,支持对文本、图片、音频和视频多类型内容的采集。随后,该系统对获得的原始舆情数据进行清洗和净化,如对广告、版权说明、图片等与主题无关的噪音内容进行去噪处理。同时,该系统可以采用“网络雷达”技术判定资源是否存储于历史数据库中。
(二)舆情信息存储系统
数据存储系统负责对各种舆情数据进行存储,包括存储互联网采集系统所采集到的各种原始数据、舆情分析和挖掘的中间过程数据、舆情发布和运营管理过程数据用户使用行为数据等。
网络舆情监测系统监测的数据范围是互联网上的所有信息,这个数据的体量很大,被称为大数据。大数据时代,数据规模从GB级发展到TB级,甚至是PB级之后,传统的关系型数据存储方案难以很好地解决海量数据存储问题。为了解决这个问题,一些新数据管理系统开始涌现,如并行数据库、NOSQLN数据理系统、数据管理系统、云平台等。这些新技术和新的数据存储方式,为网络舆情监测系统的数据存储提供了更好的解决方法,云数据管理是其中优良的解决方案之一。
云数据管理平台是以数据储存为主的云计算平台,平台基于硬件资源和软件资源的服务提供网络舆情数据的存储功能。目前,微软、苹果、阿里巴巴等企业均建立了相应的云计算平台。有舆情数据存储需求的客户无需在自己的电脑上,或者自己的公司安装舆情数据库管理软件,也不需要花钱建设自己的舆情数据管理集群,只需要使用舆情服务提供商提供的舆情数据库,利用服务提供商提供的数据库进行舆情数据的检索和应用。此外,云数据管理系统服务提供商可以弹性地分配存储资源,享受舆情监测服务的客户不需要自己创建整套的数据采集、存储系统,只需根据自己的实际需要定制并支付相应资源费用。这使得服务提供商可以根据数据体量和客户需求进行动态扩展或者缩减。
(三)舆情信息分析系统
舆情信息分析系统是网络舆情监测的核心部分,也是网络舆情监测系统的价值所在。海量的纷繁复杂的网络信息将通过这个系统转化为有实际意义的舆情信息。具体而言,舆情信息分析系统可以分为舆情信息预处理以及数据挖掘两部分。
1.舆情信息预处理
有的时候,舆情信息储存系统中的信息依旧保持着舆情信息的原始模式,例如某一个帖子或者某一条评论。因此舆情信息分析系统需要对这类原始信息进行信息预处理,使其转化为计算机能够识别的语言或者说信息。也就是说,舆情信息预处理是将非结构化或者半结构化的原始舆情信息转化为结构化的信息形式。具体而言,舆情信息的预处理分为分词、停词、合并词、进行分类参数优化、建立文本表示模型等,具体流程如图8-2所示。具体而言,分词是通过中文或者外文的分词技术将一条评论分割为单个的单词,例如将“我爱祖国”分为“我”“爱”“祖国”。停词是为了降低分词处理后数据库的噪点,既停用(删除)一些无用的语气助词、连词、冠词等,如“啊”“哦”“的”。合并词是对数据库中语义相近的词合并去重。分类参数优化与建立文本模型是利用文本向量对文本特征词提取,进而实现参数优化。
图8-2 舆情信息预处理流程图
2.数据挖掘
数据挖掘(Data mining)是指从大量的数据中通过算法搜索隐藏于其中的信息的过程。网络舆情的数据挖掘,从海量的舆情数据中找到政府机构、企事业单位等,进行舆情分析、追踪和研判的价值信息。目前,网络舆情信息分析系统的数据挖掘一般通过机器学习、在线分析处理、专家系统和模式识别等多种方法实现,分析技术则主要基于聚类分析、分类分析和关联规则。
(1)聚类分析。
聚类分析是将海量数据中相似的信息和数据聚集到一起的数据分析方法,基本方法包括K-means聚类和K-medoids聚类。在网络舆情监测系统中,聚类分析可以判别出某一平台或者某一时间段网民所探讨的主题。例如将百万、千万计的评论信息聚类为举报信息、投诉信息、建议信息、表扬信息等。聚类分析的技术手段很多,可以通过python编写聚类代码,或者使用Gephi、Rost等成熟软件进行聚类分析。
其中,潜在狄利克雷分布模型(Latent Dirichlet Allocation,LDA)是目前常用的一种能够实现文本主题聚类的机器学习技术,专门用于分析主观文本等高度多维数据。LDA模型认为文档中每个单词生成过程为:从K个主题中抽取一个主题,再从该主题对应的单词库中抽取一个单词。其中,K个主题的混合比例服从狄利克雷分布θm,参数为α;每个主题的词库中单词混合比例服从狄利克雷分布øm,参数为β。而LDA模型则是根据文档中已知的所有单词,运用数学公式不断迭代,反方向倒推出文档中的单词来自哪些主题,从而得到文档中的隐藏主题,如图8-3所示。(www.xing528.com)
图8-3 LDA模型图
图中,M表示评论总数,N为评论集中所有的词汇数,Zm,n表示第m条评论中第n个词对应的主题,Wm,n表示第m条评论中第n个词。根据LDA模型图,所有变量的联合分布为:
(2)分类分析。
分类分析是通过已知的训练数据集来识别新的观察数据所属组别的分析方法。这是一种有监督的学习过程,系统首先根据训练样本得到信息分类,例如分析出一万条样本评论数据所包含的类别以及每个类别的标签特征。随后根据该标准判断新的十万条评论数据分别属于哪种类别。
由此我们可以明确,分类分析和上文提到的聚类分析最大区别在于:分类分析对于所划分的类别是已知的,聚类分析对所划分的类别是未知的。也就是说当分类分析的训练文本得到十种类别(主题)时,我们可以预测所有等待分析的网络舆情将被分为这十类中的某一类。而我们对网络舆情进行聚类分析时,我们并不能预判这组数据集包含了多少个类别(主题)。
分类分析常用的算法包括贝叶斯分类算法和决策树算法。其中贝叶斯分类算法是统计学分类方法,它是一类利用概率统计知识进行分类的算法。贝叶斯算法在许多场合下能运用到大型数据库中,且方法简单、分类准确率高、速度快。通过分类分析技术,网络舆情监测系统能够将网络舆情信息细分为不同的子维度。在此基础上,针对每个子维度的情感分析等能够帮助我们形成同舆情不同预警级别的分类、舆情排行榜分类等。
(3)关联分析。
关联分析又称关联挖掘,主要用于发现数据之间的联系。具体而言,是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。例如,相继出现的几次舆情危机中是否是同一批网民在发布和传播?
关联分析的一个典型例子是购物篮分析。该过程通过发现顾客放入其购物篮中的不同商品之间的联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略。网络舆情中也有很强的关联关系,有学者在分析了115个突发网络舆情事件之后发现,我国突发性网络舆情事件的要素之间具有紧密的关联性;府际问责、政民互动与警民冲突构成我国舆情生态的基本主体关系;公众安全感和政府公信力在共词网络中具有重要影响力;经济利益、公平正义和道德诚信也是社会公众关注的永恒议题。[11]
关联规则挖掘过程主要包含两个阶段:第一阶段必须先从海量数据中找出所有的高频信息组,高频的意思是指某一信息组出现的频率相对于所有记录而言,必须达到某一水平第二阶段再由这些高频信息组中产生关联规则,从而进行关联性分析和判断。
(四)舆情信息管理系统网络舆情监测系统的应用价值主要体现在舆情信息管理系统上。在对网络舆情进行采集、储存和分析之后,网络舆情监测系统需要根据客户的现实需要对网络舆情信息进行管理。实现客户对网络舆情监测不同功能的诉求。具体而言,网络舆情信息管理系统在采集、储存、分析系统基础上,实现热点识别、主题跟踪、分类监测、舆情预警、生成报告等功能。
热点识别能力:可以根据信息不同出处、网民评论数量、发帖时间、关注密集程度等参数,识别出给定时间段内的热门舆情话题。
主题跟踪:主要是指针对热点舆情话题进行跟踪,对其进行倾向性与发展趋势分析跟踪的具体内容可以包括:信息来源、转载量、转载地址、传播路径等。
分类监测功能:可以根据系统自动聚类和分类、客户的实际需求等进行分类监测。如领导人监测、行业监测、竞争对手监测、新媒体监测等。
舆情预警:预警主要是针对舆情及风险分析的热点信息与突发事件进行监测,根据舆情的负面情况、严重程度、影响范围、危机与损失程度等,第一时间对舆情信息进行预警提示。提示的形式可以是舆情系统中的不同标示,自动发送邮件、短信、微信等给相关监督管理人员。
统计报告:根据舆情分析引擎处理后的结果生成舆情报告,用户可通过浏览器进行浏览,系统提供信息检索功能,根据指定条件对热点话题、倾向性观点进行查询等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。