我们将从认知理论和技术两个角度简述舆情分析的步骤。对于舆情分析,单独靠人工完成难度太大,尤其是当前处于大数据时代,信息量如此巨大,某个人或者某些人手动分析不现实,所以舆情分析更多的是基于一定技术完成的。
1.基于认知的舆情分析步骤
舆情分析首先要明确该条舆情处于哪个阶段,一般情况下,舆情的发展可以分为四个阶段[8]:潜伏期、成长期、成熟期、衰退期。图1-7为鹰眼网提供的舆情分析报告中关于2019年热点话题“台风利奇马”事件的发展过程。
图1-7 2019年热点话题“台风利奇马”生命周期
观察图1-7可以发现在2019年8月11日,各种媒体报道台风“利奇马”的灾情及政府部门的抢险工作,该话题热度达到峰值。
潜伏期:这是舆情事件最开始的阶段,潜伏期是舆情事件依靠各种社会要素的积压,已经被一定的网民关注。网民在不同平台中对该话题讨论,这个过程自然也会有一些负面情绪,例如上面的台风事件中,“黄南水库被冲垮了”“永嘉300多人不见了”“济南、沈阳、威海凤凰山路变压器泡水漏电”等网络谣言滋生,“南京一男子辱骂台风受灾城市”“YY直播平台主播‘四轮子’在直播过程中调侃台风遇难者”等事件给社会造成一定不良影响。在潜伏期内,话题慢慢形成,力量不断堆积,一定程度后,话题就由潜伏期进入快速成长期。
成长期:舆情从潜伏期进入成长期后,众多网民之间对该舆情进行更加深入的交流和讨论,最终形成较为一致的群体意见,个人意见相对较弱,而统一的群体意见促使群体向同一个方向发展,形成高度一致的集体心理,个别不同的意见也可能会出现从众的现象。
成熟期:这个阶段的舆情网民参与度高、媒体关注度高、涉及范围广、融合性强,已经形成明显的主流意见,舆情的倾向性和导向性清晰,影响力也明显提高,此时舆情的热度达到峰值。
衰退期:网络舆情进入成熟期后,就逐渐进入衰退期,产生衰退的原因主要包括:事件的结束(例如,台风过去)、随时间冷却、被新的热点话题转接。但是其中有些话题虽然在一个周期内已经进入衰退,但是某个时间点可能会被再次激起,进入下一个周期,这也是网络舆情的典型特点之一——波动性。
上述内容针对的是一个周期内的四个阶段。依据上述理论确定舆情发展具体属于哪个阶段后,还需要明确该舆情在进入热点话题前的类别,包括学科的界定、类型的界定等。不同类型的舆情分析的参考依据、着手点、重视程度也不同,所以有针对性地分析舆情是实现精准分析的关键点。
2.基于技术的舆情分析步骤
1)数据获取
进行舆情分析的第一步是获取数据。在网络平台中,常采用的数据获取方法是爬虫。运用爬虫工具可以把网络上的网页文件下载下来,下载的信息包括网页的超级链接地址、网页上的文本信息、网页上的图像信息等。这些信息将作为初始数据保存到本地电脑上,后期还要对这些数据进行有效的处理。
2)文本分类
传统的文本分类过程包括四个主要阶段:数据预处理、文本表示、文本降维、分类器,实现流程图如图1-8所示。
分析图1-8可以发现,整个文本分类过程实际上包括两个模块,上半部分的模块为训练模块,即从网络中爬取的数据经过一系列处理后训练成分类器,并采用一定的评价标准,评估分类器的性能。待分类器训练完成后,执行图1-8中下半部分的操作,即对未知类别的数据进行分类。分类的完成是网络舆情进行相关分析的基础,例如在舆情监测、舆情预警、舆情传播等过程中,均须判断后续的舆情信息是否属于监测话题,这个过程实际就是分类的过程。(www.xing528.com)
图1-8 文本分类过程示意图
(1)数据预处理
数据预处理的目的是从原始数据中提取有效的、便于后期分析及使用的数据,一般包括分词、去噪、特征选择。因为英文文本有空格隔开,所以分词相对容易一些,但有时候也需要把多个单词作为一个分词,比如一些专有名词如“New York”,需要当作一个词看待,此时就不能简单地依据空格进行分词。中文由于没有空格,分词就相对困难,需要专门的算法解决。无论中文文本还是英文文本,分词处理都是非常重要的数据预处理操作。现在的分词工具多基于统计分析,统计的基础样本一般源自标准的语料库。对于语料库中没有的新出现的句子,可以通过计算各种分词方法的联合概率分布,概率最大的即为最优的分词方法。当前代表性的英文分词工具为NLTK,代表性的中文分词工具为JIEBA。一般情况下,如果分词没有特殊的要求,可以直接使用这两个工具完成文本分词工作。
目前,互联网中大部分信息都是非结构化的,网络信息里经常包含一些和正文信息没关系或者容易产生错误引导的信息,这些信息常被称为噪声。噪声信息的存在对舆情的监测、预警、传播具有很大的影响,过多的噪声将降低舆情监测的正确率,产生误报,甚至导致话题的错误演化,产生不良的话题漂移现象,所以噪声去除亦属于数据预处理工作中的关键步骤之一。本书后续章节将对话题演化中的噪声特征识别展开相关研究。
(2)文本表示
已有的文本表示模型包括:布尔模型、向量空间模型、概率模型。布尔模型最为简单,采用0,1二元制表示词语是否出现在文本中,但是该方法应用性不强;向量空间模型将文本表示为向量,该方法比较简单,而且可以直观地表示对象,所以应用性相对较强;概率模型以条件概率值的形式表示对象,能更好地实现语义检索,也是当前应用较为广泛的文本表示方法之一。
(3)文本降维
常用的文本降维方法为特征选择,特征选择的目的是从目标对象中选择最优的子集来表示原对象,即在降低特征维度的同时,正确地表示原对象。已有的特征选择方法包括基于搜索策略和基于评价准则函数,常用的基于信息度量的特征选择方法均属于基于评价准则函数。当前在文本处理领域,常用的基于信息度量的特征选择方法包括:文档频度、TF-IDF方法、互信息、信息增益等。
(4)分类器
文本分类的目的是构造分类器,依据该分类器可以将给定的文本划分到某一类或多个类中(在有些应用场景,需要考虑文本的分布性,即文本属于几个类别)。在众多的分类算法中,典型的算法包括:决策树、最大熵、贝叶斯和支持向量机等。
3)舆情分析
在上述基本操作的基础上,对于后续的网络舆情,可以通过分类器判断是否属于已有的舆情话题,如果属于则将其加入已有话题,充实原话题内容。如果在短时间内某个话题的相关舆情高密度出现,则该话题可能是热点话题,需要重点监测。对该话题的深入分析包括:话题关注度走势、媒体来源、发文密度、舆情来源区域、舆情领袖、网民情绪等。
图1-9为新浪舆情通对热点话题“无锡高架桥倒塌”的舆情分析结果,时间段为2019年10月13日15∶00至2019年至10月14日14∶00,这里我们仅截取了两个舆情分析结果,分别是:图(a)话题关注度走势图、图(b)话题信息来源占比。
图1-9 新浪舆情通对热点话题“无锡高架桥倒塌”的舆情分析
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。