无论是互联网时代的贴吧浪潮,还是移动互联网时代的移动社交媒体浪潮,都极大地增强了网络舆论的影响力。因此,网络舆情作为各级政府了解社情民意、改进工作作风、提高执政能力的重要窗口的功能愈发显现,推进网络舆情监测体系的重要性也愈发凸显。上一章介绍了网络舆情监测系统的基本情况,本章将详细介绍网络舆情监测系统所使用的分析技术和工具方法。
(一)网络舆情采集技术
网络舆情分析的首要技术,是使用网络信息采集工具自动搜索和采集网络中的相关舆情信息。网络时代,民众的舆情信息分散于互联网的各种网络媒体、信息交流平台之中。这些信息大多聚集在新闻评论区、微博微信、网络论坛、公众号自媒体等网络渠道。这些信息纷繁复杂、五花八门且数量巨大,是网络舆情分析的基础数据。因此,采集这些网络舆情信息的技术水平从很大程度上决定了网络舆情的分析效果。目前,网络舆情信息的采集技术主要涉及网络爬虫、搜索引擎、网页相关性计算。
1.网络爬虫
网络舆情信息采集技术的基础和核心技术是Web信息采集技术,也可以称为网络爬虫。网络爬虫主要应用于搜索引擎或数据挖掘前期的数据收集工作之中,高效快速地对网页、图片和文档等数据或信息内容进行实时性动态性采集。如果我们将互联网比作一张巨大的蜘蛛网,每一个网页是蜘蛛网中的一个节点,网页与网页之间的链接关系是连接节点与节点的弧线。Web信息采集技术就是以其中的一个网页(节点)为中心,根据图论渐渐爬遍整个蜘蛛网来获取其他的页面(节点),因此这种技术被形象地称为网络爬虫技术。
网络爬虫技术通常以一个或多个种子URL作为工作的起点,通过各类端口发送按照http协议格式的指令,如GET、PosT和HEAD格式等。采集工作由起始URL开始后,程序会自动按照一定的搜索策略选择模块提取文档中新的超链进行访问,并按某种过滤策略去除已被访问或是不宜访问的超链,如此反复循环,按照一定的搜索策略对互联网Web文档信息进行遍历搜索。图8-4显示了网络爬虫的工作流程,整个过程如同一个蜘蛛在蜘蛛网(Web)上爬行。
图8-4 网络爬虫工作流程图
由于网络中的数据量巨大,更新的频率快,信息采集存在相当的困难。因为爬虫在获取某站点的页面时,很可能又有新的网页被添加进来,或者当前页面正在被修改,甚至已经被删除。互联网上的数据堪称海量,在这样高频的变化下,爬虫在给定的时间内只可能抓取网络中的部分网页。因此,我们需要制定科学合理的爬行策略来尽量避免这样的问题,可以说网络爬虫的工作效率,依赖于其爬行策略。目前网络爬虫的爬行策略,主要包括搜索策略、重新访问策略、礼貌策略三个方面。
搜索策略决定爬虫遍历网络的方式,分为广度优先搜索策略、深度优先搜索策略和最佳优先搜索策略。广度优先搜索策略是指网络蜘蛛从起始网页开始,首先搜索完一个网页中所有的链接,然后再继续搜索下一层,直到底层为止。深度优先搜索策略是指网络蜘蛛从起始网页开始,一个链接一个链接地搜索下去,处理完这条路径之后再转入下一个起始网页,继续跟踪链接,直到遍历所有的网页及链接,搜索过程结束。最佳优先搜索策略是一种局部最优的搜索算法,它是基于某种网页分析算法来计算出该页面的某种主题相关性,然后根据爬行相关度来比较相关性高的页面,所以很多相关性较低的网页有可能将会被忽略。
重新访问策略是针对网络更新频率制定的信息采集策略,目的在于确保系统所拥有的资源不会过时。重新访问策略对资源进行衡量和评价的两个常用指标是新鲜度和过时性。新鲜度用来评价抓取的内容是否准确,过时性是用来衡量已抓取页面过时的程度,尽可能提高页面的新鲜度和降低页面的过时性是网络爬虫的目标。重新访问策略又分为正比策略和统一策略。正比策略中,重新访问的制定与网页的更新频率高度相关,网页的更新频率越高,那么其重新访问的间隔越短。统一策略指的是使用相同的频率重新访问所有的页面,它将不考虑他们更新的频率。
网络爬虫在获取页面数据时往往需要频繁地访问站点服务器,这需要占用对方服务器的资源,同时也会占用大量的网络带宽,为了防止受到不必要的干扰,站点可能会将爬虫屏蔽掉,所以网络爬虫自身应该礼貌地爬行以尽量避免这种情况的发生。网络爬虫礼貌爬行主要包括标识身份、遵守机器人排除协议(Robots exclusion protocol)、设置合理的访问间隔、检查meta标识、将网站地图作为爬取该网站网页的入口。
2.搜索引擎及元搜索引擎技术
(1)搜索引擎技术。
网络舆情信息的突发性使得信息收集系统对网站内容进行信息收集还不足够充分,它只能反应网络媒体的一个侧面。有时还要借助于人工方式对互联网的信息进行监控,这就需要借助引擎技术的支持。
搜索引擎自动搜集互联网中的网页信息,经过整理、组织、加工和处理后,建立管理和存储这些信息的索引库,并提供基于索引的信息检索服务。搜索引擎通常由上文介绍的网络爬虫加上索引器、检索器和用户接口等部分组成,网络爬虫在互联网中不断地搜索、发现和采集新的网页信息,然后将网页信息存入网页库,由索引器建立索引;索引器将分析网络蜘蛛所采集的信息,从中抽取出索引项,建立用于检索页面的索引表;检索器将根据用户的查询请求和条件,从索引库中快速检索出网页,并通过网页相似性分析和评价,对输出的结果进行排序;用户接口为用户提供一个输入查询请求和显示查询结果的用户界面。对于用户而言,搜索引擎操作简单快捷。因此,搜索引擎是互联网中最常用的信息搜索工具。著名的搜索引擎有Google(谷歌)、Bing(必应)、百度等。
(2)元搜索引擎技术。
元搜索引擎则是将多个单一的搜索引擎聚集在一起,提供统一的搜索界面。元搜索引擎将用户的搜索要求提供给多个单独的搜索引擎,在对反馈的信息进行二次处理加工,反馈给查询用户。通过这种整合多个搜索引擎的机制,元搜索引擎对分布于网络中的众多搜索工具形成全局控制机制并最大限度地保证了信息的完整性。
元搜索引擎由检索请求提交机制、检索接口代理机制、检索结果显示机制三部分机制组成。“检索请求提交机制”主要负责实现用户的检索要求。“检索接口代理机制”主要负责将用户的检索请求翻译成满足不同搜索引擎符合本地化要求的格式。“检索结果显示机制”主要负责所有单独搜索引擎检索结果的去重合并、输出反馈等操作。
(二)网络舆情分析技术
1.文本分割技术(www.xing528.com)
网络舆情信息在网络中的原始呈现形态是非结构化的文本信息,即我们看到的一条条微博、一篇篇文章。通常情况下,通过采集技术采集到的网络舆情信息数量级是巨大的,以几十万甚至上百万计。要在海量的网络舆情信息中得到有价值的信息,单纯通过人工识别是不现实的,机器学习与大数据分析是目前分析网络舆情信息的主要手段。然而,由于自然语言是非结构化文本信息,计算机无法有效地识别。这就需要文本分割技术对非结构化文本进行预处理。文本分割技术能够将一个多主题的网页文本按主题分割成若干个文本块甚至是最小文本单位,以提高计算机自然语言处理的效果。因此,文本分割技术是文本自动分类、情感分析、主题提取等网络舆情分析中的基础技术手段。
文本分割技术的关键在于如何确定分割点,将原有的文本内容划分成若干个不同的部分。根据不同的信息形式(语音、评论、文章),文本分割可以选在词之间、句子之间以及段落之间进行。其中,词和句子的划分相对比较简单,而段落划分要复杂一些。对于段落的分割,可以采用按照逻辑结构划分、按照等长自然段划分、按照话题迁移划分、按照固定长度词序列划分、按照文本语义划分等方法。
目前文本分割的方法总体上可分为四类:基于词聚集的方法、基于语言特征的方法、基于统计的方法以及其他。基于词聚集的方法假定相似或相关的词倾向于出现在同一主题段落内,文本内部有机的组织是文本的一个重要特征,一个任意的句子集合并没有这种特征,而篇章内部的紧凑性是使得文本篇章成为有机组织的一个重要因素。典型的基于词聚集的方法有Text Tiling算法、Lexical Chains方法、Dotplotting方法以及LCP(Lexical Coherence Profile)方法等。基于语言特征的分割方法是指利用某种策略从语料库中提取词特征或者韵律特征,通过分析它们与主题段落首尾的关系来确定段落边界。这种方法一般用于特定文本类或者语音流的处理。基于语言特征的分割方法主要有决策树法、隐马尔可夫模型(HMM)、综合法。基于统计的方法是利用主题性特征和提示性特征建立一个统计语言模型进行文本分割。其他文本分割方法还有LSA(Latent Semantic Analysis)方法、动态规划法、局部内容分析等。
2.话题监测与跟踪技术
话题检测与跟踪技术(Topic Detection and Trancking,TDT)最初应用主要是新闻出版领域,用于新闻流的话题检测和事件跟踪。后来被扩展到互联网上,用于检测和跟踪以话题词为中心的互联网新闻热点话题以及流行词,因此成为网络舆情分析中的重要技术。该技术在没有人工干预的情况下自动检索、判断和识别数据流中的话题。其中,话题指一个核心事件或活动以及所有与之直接相关的事件和活动。
TDT是从一篇文章的主题作为切入点,通过对文章主题的发现和跟踪,把各种分散的信息进行有效汇集,并且组织成线索提供给用户进行查阅,厘清一个主题事件的来龙去脉,把握整个事件的整体和细节。例如,在网络舆情监测中,通过TDT技术对各种信息源的监测和分析,从中识别出针对某一突发事件的各种报道,并对事件的演化过程进行跟踪。使用TDT技术能够完成新事件检测(New Event Detection)、报道关系检测(Story Link Detection)、话题检测(Topic Detection)、话题跟踪(Topic Tracking)、自适应话题跟踪(Adaptive Topic Tracking)和层次话题检测(Hierarchical Topic Detection)六项分析任务,其中,话题检测与话题跟踪是核心问题。完成以上任务时,TDT技术需要使用表示模型、相似度计算、特征项权重计算、话题和报道间的相似度计算、文本分类与聚类的策略选择等相关技术。
表示模型是使用适当的模型来表示报道和话题,以便对两者的相关性进行计算和比较,从而判断一个报道是否与某一话题相关。常用的表示模型有语言模型。语言模型是一种概率模型,基本思想是对于在某一报道中出现的词,采用期望最大化(EM)等算法来分别估算该词在某个话题所有报道的概率分布和在整个语料库中的概率分布,可以得到某一报道讨论该话题的概率,这样就构成了一个词的生成模型。在话题检测与跟踪中,人们提出了多种语言模型,如隐马尔可夫模型、指数语言模型、层次语言模型、语义模型等,其中效果较好的是上一章介绍过的LDA(Latent Dirichlet Allocation)模型。
相似度计算指通过计算和比较某一信息与主题之间相似度值、阈值,判断该信息属于哪一个主题。常用的相似度计算技术有内积、Dice系数、Jaccard系数、余弦系数以及欧几里得度量等。
特征项选取属于对文本向量做净化处理的部分,是向量空间模型中用来表示文本向量空间中的各个维度的方法。因为直接使用分词和词频统计方法来得到特征项的向量空间维度比较大,这不仅会给后续处理带来大量计算工作,还会影响到分类和聚类算法的效果。因此,需要使用特征项选取来对向量空间维度进行净化。也就是保证原文含义的基础上,找出最具代表性的文本特征项。这个问题归结为找到一种低维度的特征选择方法。目前最常用的特征项选取方法是统计方法。这种方法对特征集合中的每个特征进行评估和打分,这样每个词语都获得一个评估值,然后将所有特征按权值大小排序,提取预定数目的最优特征作为提取结果的特征子集。这种方法比较精确,人为因素的干扰较少,尤其适合于文本自动分类挖掘。
文本聚类是话题监测技术中的核心技术。该技术是一种无监督的学习过程,计算机根据文档集合内部的文档对象彼此之间相似度关系并按照某种准则进行文档集合划分。通过该项技术,信息采集技术抓取到的海量网络舆情数据可以被计算机自动分为N类主题。与文本分类不同,文本聚类不需要预先对文档进行手工标注类别,即不依赖于文档集合划分的先验知识。因此,该项技术对于获取大规模多元数据集合的结构特征是有效的。它能够发现数据之间所隐含的某些关系,因此在数据挖掘和知识发现领域中得到了广泛应用。
文本聚类划分的依据为:同类中的文档彼此之间的相似度较大,而不同的类之间的文档相似度较小。典型的文本聚类过程可以分为三个步骤:文本表示、聚类算法和效果评估。文本表示是指使用向量空间模型等文本表示模型,把文档表示成聚类算法能够处理的形式;聚类算法是指使用无监督学习算法对文档集合进行划分,文本聚类算法有很多种,常用的算法有层次方法、划分方法、基于密度的方法、基于网格的方法、基于模型的方法等;效果评估是指使用准确率、召回率、漏报率和误报率等测评指标来评价聚类的效果,也是对聚类算法性能的评价。
文本分类是话题跟踪技术中的核心技术。与文本聚类技术不同,该技术是一种有监督的学习过程。文本分类需要对文本集合(0)进行类别标注构建费雷体系和分类器,再判断新出现的文本是属于分类体系的哪一类。通过这种技术,能够判断某一条新的舆情信息是属于一个新话题还是旧话题,从而对话题的发展进行跟踪。
典型的文本分类过程可以分为三个步骤:文本表示、分类器构建和效果评估,其中文本表示和效果评估的方法与文本聚类相同,而分类器构建是文本分类中关键的环节,应当根据所要解决问题的特点来选择一个分类器。在选定构建方法之后,在训练集上为每个类别构建分类器,然后把分类器应用于测试集上,得到分类结果。在文本分类中使用的学习算法有多种,如Rocchio算法、k最近邻居(KNN)、决策树、朴素贝叶斯、神经网络、最大熵、支持向量机(SVM)等。其中,比较常用的是Rocchio、KNN、决策树、SVM等算法。事实上,每种分类算法都有各自的长处和局限性,它们经常可以互为补充。实际应用和算法实验表明,在文本分类中,KNN方法和多种方法的组合具有较好的性能。
3.情感分析技术
情感分析是自然语言处理的一个分支。心理学研究发现词汇与人类情感之间的关系或可度量,情感分析便是通过对文本自动分类找到作者的观点与情感。网络舆情中,网民所持有的情感倾向性往往是多元化的,包括正面或负面、赞扬或批评、支持或质疑、肯定或否定等。情感分析在互联网时代引起了研究者的广泛关注,学者们用以监督网络舆情甚至预测股票市场的起伏。
情感分析技术主要研究如何对文本所表达的观点、情感、立场、态度等主观性信息进行自动分析,从海量文本中识别出人们对某一事件或政策等所持有的观点是褒义还是贬义,提高对文本情感分析的效率。文本情感分析技术涉及自然语言处理、计算语言学、人工智能、机器学习、信息检索、数据挖掘等多个研究领域,属于交叉性技术。情感分析的发展经历了由粗粒度研究到细粒度研究的过程。粗粒度研究包括在文档层面对整个文档进行情感分类的形式,以及在句子层面先区分文档中的主客观句再对主观句情感进行分类的形式。[12]细粒度研究在词汇层面进行语义分析以及词汇元素间相互作用分析。[13]
词语情感分析是对句子中出现的表达情感的名词、动词、副词和形容词所表现的褒义、贬义和中性意义进行分析,包括对词的情感极性、情感强度以及上下文模式等进行分析。词语情感分析技术的基础和分析效果在于情感词典的构建。情感词典会标注有倾向性的情感词语,例如“喜欢”在情感词典中被标记为强度为3的正向情感,那么当舆情信息中出现“喜欢”一词时,情感总分“+3”。因此,如果舆情信息中的情感词没有收录在情感词典中,情感分析的效度将会降低。
句子情感分析的对象是在特定的上下文中出现的句子,其目的是通过分析句子中的各种主观性信息,判断该句子是主观句还是客观句。句子情感分析主要是对主观句进行分析,进一步提取出句子中的主观关系,实现对句子的情感倾向的判断,同时还要分析与情感倾向性相关的各个要素,如评价对象、情感极性、情感强度等。
段落情感分析是对文本切割后的语义段进行分析。由于语义段之间存在着语义联系,因此有助于对文本情感进行细化分析。在语义段情感分析时,以语义段中的句子为基本单元,通过计算句子情感值和语义段情感值,最终得到文本的全局情感值,实现对整个文本的情感分析。
情感分析主要依靠计算机得以实现,ReviewSeer是世界上第一个针对评论的情感分析工具,目前还有Senti WorldNet、Opinion Observer、Emotion Trigger等机器识别工具。但是由于文本情感分析技术将文本的情感倾向分为褒义和贬义两类,对于网络舆情监测中来说,还不够细致。在此基础上,还需要通过人工做进一步的统计分析。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。