话题识别与追踪属于舆情监测的范畴,热点话题发现和话题演化的相关研究均基于话题识别与追踪理论。所谓话题演化即计算后续报道和已有话题的相似度,如果相似则将该报道加入话题的描述,重复该操作,即不断充实话题内容,实现话题的演化。分析上述过程,可得到如图3-4所示演化流程。
观察图3-4可以发现,当新报道和话题的相似度大于设定的阈值时,该报道属于已有话题,将新报道内容加入到已有话题,实现话题演化;如果二者的相似度小于预定的阈值,则该报道属于其他话题或者属于一个新的话题(话题发现)。无论话题发现还是话题演化,通过上述分析可以发现,二者的关键步骤均是计算话题和新闻报道的相似度,而相似度计算的基础是话题模型,因为有了话题和报道的表示才可以计算二者的相似度。
常用的话题模型包括向量空间模型、概率模型,其中概率话题模型包括语言模型、LDA模型和贝叶斯网络模型。向量空间话题模型和基于向量空间的信息检索模型理论类似,只是应用领域不同。1998年,Allan[81]考虑到信息检索与话题识别与追踪的共性,尝试将信息检索领域的向量空间模型应用于话题建模,并验证了研究的有效性。该模型将话题和新闻报道分别采用向量表示,采用余弦夹角公式计算二者的相似度,从而实现话题识别与追踪。考虑到基本向量空间模型没有融合新闻报道本身的特点、易出现话题漂移等不足,研究者们对其进行了扩展,扩展研究主要基于新闻报道的特点和基本向量空间模型的不足展开。
图3-4 话题演化流程图(www.xing528.com)
概率话题模型不同于向量空间模型,它采用条件概率计算新报道和话题的相似度,理论上,该类模型可以更好地模拟话题的形成过程。目前常用的概率话题模型包括语言模型,狄利克雷分布(LDA)模型和基于贝叶斯理论的话题模型。在信息检索领域应用较多的是n元语言模型,即在已知前面n-1个词的前提下,预知第n个词是什么,在话题识别与追踪领域多采用一元语言模型,即假定所有词语是相互独立的,最终运用联合概率计算话题和新闻报道的相似度。
语言模型的最大缺点是数据稀疏性,即零概率问题,为解决该问题,研究者们多采用不同的平滑技术[82]进行改进。LDA[83]是目前广泛使用的一种具有文本主题表示能力的非监督学习模型,它从一个数据集中挖掘指定个数的潜在话题模型,然后用这些话题模型表示文本,达到特征降维的目的。考虑到LDA模型在自然语言处理领域的应用优势,研究者们[84-86]尝试从不同角度将LDA模型应用于话题识别与追踪,包括模型的直接应用和一系列扩展研究,并实验验证了相关研究的合理性。
基于贝叶斯理论的话题识别与追踪研究起步较晚,2010年,Godec等[87]提出将朴素贝叶斯应用于在线追踪任务,利用条件概率计算新闻报道属于话题的条件概率,从分类的角度实现话题识别与追踪。此外,为尽量避免话题在线追踪中的话题漂移问题,Godec等将时序信息融入特征的权重计算。Li等[88]提出应用朴素贝叶斯理论进行话题追踪,首先将样本训练为不同类别,然后利用贝叶斯分类器计算新报道和已有话题的相关度,通过阈值比较判断其是否属于已有话题。信念网络是一种有效的信息检索模型,该模型提供了一种因果关系图,可以在其上进行学习,模拟话题识别与追踪的过程。吴树芳等[89]以信念网络为理论基础,对其在话题识别与追踪领域的应用展开了系列研究,提出了系列基于信念网络的静态话题模型和动态话题模型。对于强调准确率的应用领域可侧重于采用静态信念网络话题模型,对于强调查全率的应用领域可侧重于采用动态信念网络话题模型。
本书在后续研究中采用基于信念网络的话题模型作为表示模型,展开热点话题的发现和演化研究,故本章重点介绍基于贝叶斯理论的话题模型,具体包括:基于朴素贝叶斯理论的话题识别与追踪和基于信念网络的话题识别与追踪。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。