网络舆情智能分析研究的主要目标是在主题发现和追踪技术的基础上,通过自动发现和深入分析的方式综合展现当前的舆情热点,其主要研究内容包括:舆情热点的自动发现、关键词和摘要提取、文本倾向性分析、传播分析、趋势分析和关联分析等。
1.舆情热点的自动发现
舆情热点自动发现是基于主题检测技术帮助人们应对信息过载问题的研究,以新闻、论坛、博客等媒体网页作为处理对象,自动发现新出现的舆情热点,并将涉及某个热点的报道组织起来以某种方式呈现给用户。其目标是要实现按热点查找、组织和利用来自多种信息源的多语言信息。本技术可以提高舆情监测的综合性,实现对多种来源、多种形式舆情的综合性分析和监测能力,为全面掌握新闻、论坛、博客等各种网络传播媒介的舆情热点、传播动向、趋势分析等提供基础,从而提高舆情监测的全面性和精确性。
世界各国普遍重视网络热点信息发现、网络信息形成传播机制等方面研究的关键技术。目前关于网络舆情热点的研究主要如下两个方向:
一是基于自然语言处理技术——词频统计方式[4]的研究,涉及的技术有未登录词的识别、中英文分词。针对快速发现热点话题的问题,参考文献[5]对日本最大的BBS系统进行了分类研究,基于BBS的共享目标(Shared Goals)、信息互惠(Reciprocity)、共享环境(Shared Context)等多种度量指标,提出了使用多维向量来度量话题活性的话题活性测量方法。这种研究方法无法对大量的话题在不基于历史信息的情况下,快速发现讨论热点,均具有较长的时间滞后性或较高的计算复杂度。
二是从数据挖掘的角度考虑热点信息的发现,利用复杂网络的特性对信息进行分类和聚类[6]。热点发现算法本质上来说是属于数据挖掘中的文本聚类算法,发现热点的质量与文本聚类算法本身的特性以及算法应用中的各种阈值的设置是密切相关的。因为传统的文档聚类需要很多的参数,而没有有效的方法调整这些参数,并且在热点话题的识别中没有先验知识来构造一个好的排序函数来对话题排序,且还很难决定话题热的阶段,中国香港中文大学的Gabriel Pui和Cheong Fung提出了参数自由的热点话题识别方法。这种方法通过特征分布确定某一个时间单元热的特征单元,然后把这些特征分组成热的话题,并根据特征的时间窗口确定话题热的阶段[7]。北京邮电大学的罗亚平、王枞等认为传统的网络热点话题发现方法仅仅考虑了媒体关注度对形成热点话题的影响,忽视了热点话题的产生与社会大众的关注有密切关系,进而提出基于话题关注度和用户浏览行为的热点话题发现模型[8],但这种模型中的相关参数很难获取。
另外,识别出热点话题后,如何对它们进行描述也是热点话题发现的一个研究重点。在话题的显示方面,国内外没有相关的研究,但是可以改进TDT和信息提取中的相关研究方法。
2.舆情热点的关键词和摘要提取
舆情热点的关键词和摘要提取就是自动对舆情热点的文档集合摘取精要或要点,其目的是通过对原文本进行压缩、提炼,为用户提供简明扼要的内容描述。而关键词和摘要都是描述一篇文章或一个文章集主要内容的重要部分,不同之处在于摘要中提供的是语义连贯的句子,而关键词抽取的是彼此独立的词汇。本技术可以为文档或文档集生成高质量的关键词或摘要,方便用户浏览检索结果或文档集合,了解文档或文档集内容。人们希望从海量文本中快速准确地获得自己感兴趣的内容,这是信息检索领域目前迫切需要解决的问题。然而现在的信息检索系统只能提供给用户检索到的文档全文,因此,人们提出了通过关键词和摘要为用户提供简明扼要的内容描述。关键词是简要描述一篇文档内容的重要元数据,用户可以通过关键词迅速了解文档的内容,从而判断文档是否是自己感兴趣的话题。自动关键词技术不但可以满足应用需求,而且是其他方向研究的基础,为改进其他工作的质量起到了很大的作用。例如关键词提取是文本信息检索技术的基础,文本信息检索技术利用每篇文档中的关键词形成对文档的索引,然后根据这些索引检索出满足条件的文档。因此,形成一个有效、正确描述文档的索引是文本信息检索的关键,而这些索引的来源正是从文档中提取出来的关键词。
同关键词一样,摘要也是描述一篇文档主要内容的重要部分,不同的是摘要中提供的是语义连贯的句子,而不是彼此独立的词汇。根据处理的文档的维度(Dimension),摘要可以分为单文档摘要和多文档摘要:单文档摘要只对单篇文档生成摘要,而多文档摘要则对一个文档集生成摘要。根据摘要所采用的方法,一般情况下,自动摘要技术大致可分为基于统计的摘录式摘要和基于意义的理解式摘要两类方法。其中这两类方法的处理对象都可以是单文档或是多文档,实现技术也可以是有指导的或是无指导的。基于统计的摘录式摘要,也称机械摘要,最终摘要的内容完全是原文档内容的部分拷贝。基于统计的机械文摘是将文本看作句子的线性序列而将句子视为词的线性序列,通过利用一些统计学方法和语言学特征进行文摘的生成,主要是根据线索词词典、词频、词和句子的启发函数进行模式匹配提取摘要。目前,摘录式摘要基本上是以句子为提取单元的,因为基于句子的提取方法尽管可能会使句间存在不连贯,但句子本身是保持一致性和连贯性的;基于段落的提取会造成提取出的摘要冗余度较大,并且摘要的长度难以控制。基于意义的理解式摘要,主要是利用自然语言处理技术对文档进行浅层或深层的理解,用句法和语义知识、一阶谓词逻辑等理论对文章的内容在理解的基础上,对其中的词项、句子进行重组或替代来形成摘要。基于意义的理解文摘在处理过程中模仿了人工摘要的过程,应用了词、句、段及篇章的知识,因而使生成的文摘具有一定的连贯性和语句完整性,可读性高。但它需要较成熟的人工智能技术和大型的专家知识库,对文章进行深层的句法和语义分析,因而只能应用到某些特定题材的、文体和内容具有相当可预见性的文章中,文摘质量并不十分令人满意。
3.舆情热点的倾向性分析
由于网络的虚拟性和匿名性,使得网络文本内容在大多数情况下真实地表达出了民众的态度和情绪,通过倾向性分析可以明确网络传播者的意图和倾向。通俗地说,文本舆情描述的是文本所传递的情感。对文本舆情进行分析,实际上就是试图根据文本的内容提炼出作者的情感方向。舆情热点的倾向性分析是指对热点内的文档或回复信息进行倾向性分析,通过分析文本内的褒义词和贬义词并结合上下文进行语境分析,或者通过基于机器学习的倾向性分析算法,从而计算出文档或回复的倾向性因素。在得到倾向性因素的同时,可以加权给出每篇文档的倾向性因素度量值,再按时间统计出该热点的倾向性指标的总体变化以及某一段时间范围内的倾向性指标增量。当倾向性指标超出某一安全范围时可以给出提示信息,用于舆情信息的提前预警。
近几年,对于文本倾向性分析的研究逐渐成为国内外研究者的一个热点。文本倾向性分析指通过计算机技术自动分析文本信息所包含的情感因素,倾向性分析是一门交叉学科,涉及自然语言处理、机器学习、文本挖掘、人工智能、语言学等诸多领域。与以前传统的人工处理方式相比,通过计算机自动提取大众对某一问题的看法或舆论倾向是一个新的实时收集和分析信息的方法。它的优势如下:可以高效的处理信息,从而能够应对互联网上日益泛滥的海量数据;可以处理非结构化的文本数据,拓展了数据挖掘的处理对象。正是由于情感自动分析的这些优势,它有着众多的潜在应用领域。
至今为止,国内外所从事的网络文本倾向性分析研究工作可归纳为以下几个方面[9]:
(1)客观性分类:从Web上获取的评论文档按照类型和风格的不同区分为主观和客观两类,这类工作以Finn等人为代表,其结论是基于词性标注的特征选择方法比词袋方法效果好。Wiebe等人对人工标注的语料从短语、句子和篇章层次进行研究,发现对于不同的标注者,其主观性的判别有较大差异。(www.xing528.com)
(2)词的极性判别:即通过分析带有语气渊的特征来判断词的极性。Hatzivassiloglou和McKeown使用关联词(如公平并合法,简单却受欢迎)来区分含义相近或相反的词。Turney和Littman提出了一种方法,他们使用AltaVista中的NEAR运算从Web上搜索得到两个词同时出现的次数,以此来决定两个词的相似程度,一个新词归属于正面语气还是负面语气,取决于它和手工选择的正面(或负面)种子词集合中所有词的关系,这类工作和常规的词聚类问题有一定的关联。Lin和Pereira等人使用语言学同位关系把用法和意义相似的词进行了归类。
(3)语气分类:
1)基于语气标注的方法:加拿大渥太华大学的Kennedy、加拿大国家研究委员会的Turney等提出语气词标注方法,对常用词汇进行语气标注,如(“好”标为正面,“坏”标为负面)。分类时直接统计一篇评论中的正面与负面语气词的个数,正面语气词多则判为正面,负面语气词多则判为负面,相等则判为客观。
2)基于语义模式分析的方法:Tetsuya Nasukawa和Jeonghee Yi等通过识别特定主题词和语气表达式之间的语义关系进行倾向性分析。Jeonghee Yi等人采用自然语言处理技术分析特定主题和语气词之间的语义关联。
3)基于机器学习的方法:其思想是直接利用传统的机器学习方法来训练语气分类器。康奈尔大学的Lillian Lee和Pang Bo等人以Usenet上的电影评论作为语料进行了研究,采用了不同的特征选择方法和机器学习方法。其实验结果显示,基于presence—based frequency模型选择UniGrams的方法,并采用Support Vector Machine(SVM)进行分类,能取得最好的分类结果,其准确率为82.9%。
倾向性分析面临的主要问题是目前的大部分方法和技术都和领域或话题相关,局限在某个特定领域或者关联于某个话题下进行倾向性的分析,缺乏一般性的通用技术。基于语气词标注的方法严重依赖于标注专家且不利用训练样本,其分类精度往往不如基于机器学习的方法。而基于机器学习的倾向性分析方法又取决于训练集的大小与质量,同时具有很强的领域或主题依赖性,由于已有的标注语料库的规模都很小,因而这类有监督的语气分析方法的效果仍然难以保证。基于语义模式分析的方法则受限于自然语言处理技术的不够成熟而很难实用。中文倾向性分析方面的情况则更加突出,一些基本问题尚未得到圆满的解决:
(1)各种有监督的机器学习方法在中文数据集上的语气分类效果孰优孰劣;
(2)文本特征表示方法和特征选择机制等因素对中文语气分类的性能将产生什么影响;
(3)文档集的哪些语气特征对语气分类的精度具有决定性影响等。
因此,为解决上述问题,应着重研究倾向性主客观过滤技术和观点极性、强度、情感分析判别技术:研究网络环境下倾向性特征词的特点和类型,并进行语气极性判别和标注,从而构建一个面向互联网的倾向性语气词典,建没一定规模的标准数据集,为中文倾向性分析的深入研究和公开评测提供支持。
4.舆情热点传播动态分析
舆情热点传播动态分析的目标是利用新闻、论坛、博客等关联分析技术,实现对某个热点的传播趋势进行分析,用动态传播图的形式展现舆情传播的线索。舆情传播动态模块对同一热点的论坛帖文、博客文章、网站新闻进行基于时间的罚分策略计算关联程度分析,以传播网的形式给出同一主题在不同媒介之间的传播关系,结合关注程度分析得出热点的转移趋势,并以平面图、传播动画示意图展现给用户。
5.舆情热点的趋势分析和关联分析
舆情热点的趋势分析和关联分析是通过三维图形下的信息挖掘模型,以波谱图的方式展现一定时间周期内的舆情变化以及舆情重点和相关关系等信息。该模块通过粗细、亮暗、分叉的方式来表达同一时期的报道信息数量、关注度、趋势等,为舆情变化判断提供一定的参考。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。