面对爆炸式涌现的各种新闻信息,靠人工处理、获取、监测这些信息是不现实的,话题识别与追踪(Topic Detection and Tracking,TDT)技术就是在这样的背景下产生的。自1996年起,美国国防部高级研究计划局(DARPA)以及美国国家标准与技术研究所(NIST)每年资助召开TDT评测会议,以推动该方向相关研究的深入发展。
话题识别与追踪技术可以实现对杂乱信息的有效梳理,其实现过程主要包括三个环节:话题建模、相似度计算和阈值估计[30]。初期的话题识别与追踪研究主要集中于话题建模、新闻话题特点挖掘。随着该话题识别与追踪研究的深入展开,其研究分支不断细化,热点话题发现和话题演化已成为该领域的研究热点。
国外对话题识别与追踪的早期研究主要采用聚类、分类方法,或者二者的结合。1998年,参加话题识别与追踪评测会议的大部分团队在实现话题识别与追踪时采用了单路径聚类算法,而CMU与之不同,他们尝试采用凝聚层次聚类算法,但实验结果显示单路径聚类算法的性能略优[31]。Papka等[32]采用实验的方法对比了不同聚类算法的性能,并尝试将不同方法进行融合,该项研究在一定程度上提高了传统的、单一的聚类方法的性能。后期的研究者陆续将K-最近邻、决策树、线性分类器等分类算法应用于话题识别与追踪。训练样本是否充分是决定分类器性能好坏的关键,而话题识别与追踪的预知样本很少,一般为1~4个,所以直接将分类方法应用于该领域存在弊端。
为进一步提高话题识别与追踪系统的性能,国外研究者陆续将话题的特点融入系统。Yang等通过考虑文档输入的时间顺序,实现对事件的首报道检测[33]。Brants等将时序用于术语权重计算,提出ITF-IDF模型[34]。Mirza等认为时序信息是新闻语料的重要特点,从不同事件的时间信息中可以挖掘、发现其因果关系,进而提高系统对新事件的发现能力,并通过实验验证了其合理性[35]。Kimura等在分析舆情形成的过程中,对时序信息进行了量化,给出时间衰减函数,以更好地反映舆情的演化[36]。此外,新闻话题还具有波动出现的特性。为了使话题识别与追踪系统具备回顾相关事件的能力,Yang等提出在话题识别与追踪的过程中不单纯使用某一种聚类算法,而是将凝聚式聚类和平均聚类结合[37],实验结果显示与单纯使用某一种算法相比,这种结合方法性能较优。新闻报道的另一个特点是层次性,报道的主题与话题的相关程度往往分布于不同层次。为体现话题的层次性,出现了基于凝聚层次聚类的话题识别与追踪算法。该算法虽然考虑了话题的层次性,但缺点也很明显,即时间消耗和空间消耗很大,所以应用性较差,为此研究者们尝试对其进行改进,突破性的研究来自Cutting和Trieschnigg,他们将混合聚类算法和层次聚类算法融合,在一定程度上降低了凝聚层次聚类算法的缺点[38,39]。
国内部分研究者也采用了基于聚类的话题识别与追踪,多采用层次聚类思想[40-42],其他研究者更侧重基于新闻报道本身特点的相关研究。新闻报道不同于普通文本,有其固有的特点,例如,实体元素、时间信息等。国内较早将命名实体[43]融入话题识别与追踪的研究来自贾自艳等。刘素芹等采用命名实体词汇和文本内容词汇相结合的方法来表示文本特征,以实现对网络话题的动态检测[44]。此外,宋丹,骆卫华等也进行了关于名实体的相关研究[45]。在时序特点应用方面,贾自艳建立了统一时间表述方式的机制,且在计算事件相似度时,融合了时间相似度,打破了传统计算方法仅考虑新闻内容的弊端[46]。赵华和金珠等的相关研究也考虑了时间信息,他们希望通过时间信息的使用可以发现话题演化的边界,增强系统对话题的追踪能力[47,48]。以上研究的缺点是他们提出的方法主观性比较强,而且对语料规模的依赖性也较大,因此系统的稳定性不是很好,为解决这个问题,宋丹提出时间“覆盖矩阵”[49]。保丽丽等在相关研究中考虑了时间粒度对系统性能的影响[50]。上述时间信息的应用,多采用附加因素的形式使用,实质上,对于新闻报道而言,时间信息是其主要因素之一,应该将其作为直接因素用于话题识别与追踪。
在话题识别与追踪系统的构建过程中话题建模是影响系统综合性能的关键因素之一。目前在话题识别与追踪领域已有的话题模型主要包括向量空间话题模型和概率话题模型。1998年,研究者们首次将向量空间模型应用于话题识别与追踪。考虑到短时间内出现的新闻报道往往属于同一个话题,Yang等[51]使用Rocchio算法改进基本的向量空间话题模型,即在话题扩展的过程中不仅使用了相关的新闻报道,还充分使用了不相关的新闻报道,其思想为:使用相关报道扩展话题,使用不相关报道去除噪声数据,以此来加强基本向量模型对话题的表示能力,提高模型的话题追踪性能。为提高新事件检测系统的性能,研究者们尝试运用命名实体扩展基本向量模型,每个文档由三个向量表示:除停用词之外的所有术语组成一个向量,命名实体组成一个向量,非命名实体组成一个向量。若计算两个文档的相似度,则将三个向量对应相乘,以此提高话题识别与追踪的综合性能。由于向量空间话题模型的便利性和有效性,国内研究者也多采用该模型。贾自艳等[46]为了更好地表示文档,将时间信息融入基本向量空间模型,降低了事件探测与追踪中的误报和漏报现象。宋丹等[49]将一篇新闻报道表示为四个向量,该方法综合考虑了新闻报道中的关键因素:人物、时间、地点、内容,打破了基本模型仅考虑内容的弊端,提高了向量空间话题模型的综合性能。时间因素是新闻报道区别于其他文档的典型特征,是提高模型综合性能的突破点之一,使用时间信息改进向量空间话题模型的研究还来自仓玉、赵旭建、史存会等人[52-54]。仓玉提出了一种时序话题模型,该模型将话题表示为事件的集合,并标注这些事件的发生时间,在新事件检测的过程中运用“同时同事”原则判定新事件发生的概率,该研究明显提高了系统对新事件检测的准确性和时效性。赵旭建等在研究中文新闻话题动态演化的过程中,充分使用了时间信息[34]。徐建民等提出了基于时间因素的动态事件追踪模型,该模型包括文档的描述和事件描述,文档描述包括术语、权重和文档的发生时间,事件描述包括术语、权重、该术语的最早发生时间和最近发生时间,并且在事件追踪过程中将事件距离融入最终的相似度计算,该研究提出的模型有效地模拟了事件演化的过程。随着时间的推移,话题将会不断融入新的信息,若不加以合适控制,则有可能由于噪声数据的加入而出现话题漂移现象,为此,史存会等人提出了基于动态话题模型和信息熵相结合的动态向量空间模型[54],该模型从正反两个方面加强对追踪话题的描述,控制了话题漂移问题,由于单纯使用该模型仍然存在噪声数据,作者运用信息熵对动态模型进行改进,有效解决了存在大量噪声数据的问题。同样为避免话题漂移现象,翟海东也对向量空间模型进行了改进,提出基于相关性反馈的自适应话题追踪模型[55],该研究给出了自适应更新阈值和自适应相关阈值的动态计算方法,通过计算报道和话题的相关度,判别其相关性的强弱,如果特征词对话题的贡献度大于一定阈值,则将其加入话题词汇库。
综上,基于向量空间的话题模型研究包括基本研究和扩展研究,扩展研究主要围绕新闻报道本身的特点和控制话题漂移现象展开。该模型的最大优点是使用方便,缺点是它采用词袋表示话题和新闻报道,不能直观地模拟话题的演化过程,且在解决话题漂移问题时能力有限,故研究者们尝试寻找其他模型进行话题建模。同一时间,出现的概率话题模型则可以很好地模拟文档的产生过程。概率话题模型主要包括语言模型和狄利克雷分布(LDA),研究内容包括基本模型的研究和运用新闻报道特点的扩展研究。(www.xing528.com)
语言模型作为概率模型的一种,已经成功应用于信息检索和信息过滤,该领域使用最多的是n元语言模型,即在已知前面n-1个词的前提下,预知第n个词是什么。而在话题识别与追踪领域中,研究者多采用一元语言模型进行话题建模。一元语言模型的一个隐含缺点是其对所有术语同等对待,忽略了术语包含的语义信息。Nallapati等[56]认为这些语义信息在判断新闻报道是否属于话题时是重要的,于是对基本的一元语言模型进行了改进,提出语义语言模型,新模型确定一个语义类集,并将术语映射到其所属的语义类中,该研究通过语义类考虑了不同术语间的语义关系,克服了一元语言模型中术语间相互独立的缺点。洪宇等[57]将新闻报道中语义比较接近的语言构成一个整体——语义域,并用语境来增强语义描述的全面性,由此实现对语义语言模型的改进,提出语义域语言模型。
由于训练数据有限,语言模型的最大缺点是存在数据稀疏问题,虽然目前常采用线性插值技术来解决,但并不能彻底解决。另外,语言模型中元数n值较大,则需要估计的参数就多,相应地,计算代价就高;若n值较小,则语境信息就少,话题识别与追踪的准确率就会降低。在未来的研究中,如何合理地平衡以上两种情况是语言模型的研究点之一。
狄利克雷分布是一种非监督学习模型,对文本主题具有较强的描述能力。该模型的基本思想是从数据集合中挖掘出可能潜在的话题,并进行话题的模型化表示,最终实现对数据集合中特征的降维。狄利克雷分布在数据处理和自然语言中的良好效果,促使国内外研究者尝试将其应用于话题识别与追踪,并实验验证了该应用的有效性、合理性。狄利克雷分布在话题识别与追踪中的应用大体上分两类:一是技术移植,二是在基本狄利克雷分布的基础上融入了新闻报道本身的特点。张晓艳等[58]通过分析该模型和话题识别与追踪的共性,将其应用于话题追踪,实验比较了新的话题模型和向量空间模型的话题表示能力。廖君华等[59]在基本LDA模型的基础上构建了一个网络热点话题演化分析系统,系统的构建包括四部分:自动获取热点话题、对热点话题进行数据预处理、运用LDA模型识别主题和发现热点话题如何演化。为了体现话题随着时间的推移而不断更新,研究人员利用时间信息对LDA模型进行了系列改进[60-65]。
以上应用于话题识别与追踪的所有LDA模型均假设主题之间相互独立,不能获取主题之间的关系,然而在现实中,不同主题往往是相关的,忽略这些相关性是不合理的。实际上,一个主题可能和其余多个主题相关并不是仅仅与某一个主题相关,为此,Li等提出了PAM[66]模型,该模型用一个有向无环图表示语义结构,可以灵活地描述词之间、主题之间的相关性。目前的PAM主要包括三层结构和四层结构两种:三层结构涉及文本层、主题层、词层,四层结构在三层结构的基础上加入了超主题层,其中应用比较广泛的为四层。到目前为止尚未发现将PAM应用于话题识别与追踪领域的相关研究。由于PAM模型本质上是一种对文本概率的建模方法,故可应用于信息处理领域的任何方面,包括话题识别与追踪,这将是话题识别与追踪领域的未来研究点之一。
综上,目前的话题模型包括向量空间模型和概率模型。由于向量空间模型简单、易于掌握,故得到了广泛应用,是目前仍在使用的话题模型之一,其最大缺点为特征维数较高,所以在未来的研究中若能找到符合话题特点的特征选择方法,在降低其特征维数的同时,仍能保持其综合性能,将是向量空间模型的突破性研究。与向量空间模型相比,概率模型的最大优点是可以模拟文档的产生过程,两种常用的概率模型:语言模型、LDA模型,二者均基于条件概率实现话题识别与追踪,从模型的发展脉络来看,二者之间存在联系和延续性。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。