截至2019年12月19日,从中国知网输入“话题演化”可以检索到301篇文献,而且该主题的研究主要集中于近三年,统计图如图6-2所示,故从这一点来看,话题演化是一个较新的研究方向,具有很好的研究价值。
图6-2 “话题演化”研究成果发表年度趋势图
对热点话题演化的相关研究主要集中于两个方面:
(1)通过对已有话题模型的改进展开话题演化的相关研究,张佩瑶[126]等以向量的形式表示词语,形成词向量,并将该向量与比特姆主题模型(Biterm Topic Model,BTM)融合,对短文本话题演化展开研究。徐伟等[127]将微博内容分为文本(文字内容)和非文本(图片、URL、Hashtag等)两类,基于转发关系对热点微博话题的演化展开研究。较多研究者们[128-131]以LDA模型作为话题表示模型,考虑到在已有的话题演化研究中,话题的主题数需要预先设定且不能改变,这不符合人们的逻辑认知,故通过增加狄利克雷过程提出了面向动态主题数的话题演化。王振飞等[132]考虑到已有话题演化方法忽略了话题中时间因素和背景词的存在,提出基于时间片划分的微博主题生成模型(Microblog Topic Latent Dirichlet Allocation,MTLDA),展开对话题演化的研究。事实上,不同的话题模型存在固有的缺点,例如向量空间话题模型采用词袋表示话题和新闻报道,不能直观地模拟话题的演化过程,且在解决话题漂移问题时能力有限;语言模型存在零概率问题,该问题由于数据稀疏性导致;基本的LDA模型假设主题之间相互独立,而实际上不同主题间可能存在一定的关联性,完全忽略这些关联性并不合理。故已有研究虽然取得了较好的效果,但仍有改进、提升的空间。
(2)通过特征词的演化实现对话题演化的挖掘。李磊等[133]在共现分析理论的基础上,通过计算主题词集合的密度和中心度,揭示话题演化的态势。赵旭剑等[134]通过引入话题特征的演变特性,提出基于话题演化的特征计算模型,实现对话题演化的挖掘。Jensen等[135]在引文网络的基础上,运用基于内容、作者、地点特征的限定元路径构建话题演化树,该方法可以形象地体现话题的演化脉络。
通过上述梳理,可以发现现有对话题演化的研究,一是侧重于从模型的角度模拟话题的演化,另一个是从话题相关特征的演变过程体现话题的演化过程。为了加深对话题演化的理解,从上述相关文献中选取两篇具有代表性的文献做简单介绍。
1)基于LOLDA模型的话题演化
文献[130]在LDA模型的基础上,通过融入话题标签,提出了基于话题标签的微博话题演化模型(Label On-line Latent Dirichlet Allocation,LOLDA),该模型首先将话题跨越的时间段划分成多个时间片,每个时间片对应属于该时间片的文档子集,并对不同时间片中的文档子集单独建模,在建模过程中上一时间片中的主题信息会遗传给当前时间片,考虑到文档集中可能存在话题标签(即“#”),文献[130]对微博主题分布θd做了两种情况的规定:
由式(6-1)可以看出,文档的主题分布分两种情况确定:如果微博中有“#”(λd=0),则θd由话题标签确定;如果微博中没有“#”(λd=1),则θd由微博中的文本内容确定。
LOLDA模型用新出现的文档在K个主题中的概率分布对其建模,K值可能会随着时间的推移而产生变化,并不是一成不变的。在给定的时间片中,该时间片中的文档生成模型将作为下一个时间片中的生成模型的先验分布,达到遗传的目的。在某个时间片t中,LOLDA模型的生成过程如下。
(1)对微博文档集合中的某条微博m(m∈[1,M]):
如果λd=0,则微博m的主题分布θd=θs,且θs~Dir(αs);
如果λd=1,则微博m的主题分布θd=θr,且θr~Dir(αr)。
(2)对于每个主题k∈[1,K],采样生成主题-词分布~Dir():
如果t=1,则~Dir(β);
如果t≠1,则计算=ωσ。
(3)对于微博m中的第n个词语(n∈[1,N]):
从参数θd的多项分布中抽样生成一个主题zm,n,即zm,n~Multin omin al(θd);根据对应的主题zm,n及其分布,生成单词分布,即wm,n~Multino minal(φzm,n)。
(4)重复步骤(3)N遍(因为假设微博m中有N个词语),可生成微博m的分布。
(5)重复步骤(4)M遍(因为假设文档集合中有M个微博),可形成对应时间片t中的微博文档子集。
在上述模型生成的基础上,可获得微博文档的主题-词分布,并依据时间片信息体现话题演化。话题在演化过程中,其热度可由人们的关注强度来衡量,而关注强度的主要影响指标即为主题强度。同时,在正常的话题演化过程中,不同的新闻报道描述同一个话题采用的描述文本、非文本信息并不相同。综上,从主题强度和内容两方面展开话题演化研究是合理的,这也是文献[130]展开相关研究的出发点。
依据上述过程实现话题建模后,微博可以表示成话题的概率分布,如果某一个微博在不同话题上的概率分布相似(均匀),则说明该微博没有明确的主题归属,为区别话题的主题归属度,采用信息熵进行度量,即微博dm的信息熵如式(6-2)所示,某篇微博的权重Wdm如式(6-3)所示,某个话题(主题)的强度Tzk如式(6-4)所示:
其中,θm,k为微博集合中第m篇微博在第k个主题中的概率分布,当微博dm只属于一个主题时,信息熵为0,即Entropy(dm)=0,此时该微博的权重最大,令Wdm=1。通过融入时间片信息,依据上述公式可以体现话题在不同时间中的强度,进而体现话题关注度在话题演化中的变化。
对于话题内容的演变,可通过上述的主题-词分布和文档-主题分布体现,并基于KL距离计算不同主题(话题)之间的相似性。相邻时间片t和t-1中同一个主题k的两个不同主题分布和的KL距离[136]为:(www.xing528.com)
上述的KL距离是非对称的,实际上两个话题的相似度存在非对称关系,故在计算话题内容演变时,可采用如下所示的JS距离[137]计算:
上述话题演化理论可图示化为图6-3。
图6-3 基于LOLDA模型的话题演化流程图
2)基于特征演变的话题演化
文献[134]指出在话题演化过程中,无论是话题内容还是话题强度的动态变化均是基于话题特征的演化,话题特征的演化直接体现了话题演化的本质,据此,文献[134]提出了基于特征演变的话题演化研究。观察、分析话题的演化脉络,可以发现在话题演化过程中,话题的描述特征的演化具有明显的特性:突发性、连续性和密集性。
在话题演化过程中,描述同一个阶段话题的词语特征与话题其他阶段的词语特征具有明显的差别,当一个阶段的主要特征发生变化时,话题的内容也发生了演变,话题将进入一个新的演变阶段。此时,采用一定的量化方法提高特征的突发权重,可以提高后期对话题相关报道追踪的准确率。通常情况下,属于话题同一个演化阶段的新闻报道往往会包含相同的特征,这些特征会作为核心内容,贯穿某个演化阶段,此现象即为特征的延续性,这些特征不会随着时间的推移而改变。在话题演化过程中,某些特征会在短时间内高频度出现,这些特征是导致话题演化的重要原因,此现象即为话题演化过程中特征的密集性。
理论上,属于某话题同一个演化阶段的新闻报道具有相似的话题信息,直接表现是这些报道具有相同的特征词语,这些词中的核心特征会贯穿话题发展的始终,体现了话题的延续性。此外,在话题演化过程中,除了这些核心特征外,还可能在某个时间段高频率出现一些非核心特征,体现了特征的密集性。
基于上述的突发性、连续性、密集性,文献[134]给出了话题演化过程中特征的权重计算模型,如下所示:
W(‖f‖)为特征f的最终权重,其值由四部分组成:原始权重WO(f)、突发权重WB(f)、连续权重WC(f)和密集权重WI(f)。其中原始权重WO(f)采用文献[37]和文献[138]中给出的方法计算,即:
WB(f)的计算基于χ2分布实现,式(6-7)给出的χ2分布刻画了词项w和时间t的关联度,值越大则表示词项越依赖于时间,式(6-9)为基于χ2分布[139]的特征突发权重。
其中,Nwt表示在t时刻出现且包含词项w的新闻报道数量,Nwt表示在时刻t之前出现且包含词项w的新闻报道数,Nt表示在t时刻出现且不包含词项w的新闻报道数量,N表示在时刻t之前出现且不包含词项w的新闻报道数。
话题的连续性权重W(f)采用式(6-11)计算:
其中,S表示报道流中含有特征f的新闻报道数量,t(di)表示包含特征f的第i个报道的发生时间,tmax表示已有报道集合中最新文档的话题时间,tmin表示已有报道集合中最早文档的话题时间,N为报道总数。通过分析式(6-11)可以发现,出现在多个前后邻接的新闻报道中的特征词的权重较高。
特征f的密集性权重WI(f)采用式(6-12)计算:
文献[134]将文档流切分为多个时间窗口,式(6-12)中的T表示当前的文档流窗口,D表示属于时间窗口T内的文档集合,CD(f)表示特征f在D中出现的次数,CT-1(f)表示特征f在时间窗口T之前出现的次数。观察式(6-12)可以发现,其在特征密集权重计算过程中,同时考虑了最新文档和已有文档,该方法可以保证特征演变和话题演变是一致的。
以上研究均是从正向出发,尝试实现话题演化的挖掘研究,而话题演化中竭力避免的问题是话题漂移现象的产生[13],但针对此问题的研究甚少,本书以此为出发点,试图提出一种方法可以在保证话题正常演化的前提下,降低话题漂移现象产生的概率。与已有工作相比,本章的主要贡献在于:
(1)通过分析,发现话题漂移产生的根源是噪声特征的引入,而噪声特征多为新引入的话题描述特征。结合实例,分析出新引入的特征是否为噪声特征的辨别依据,主要是间断性和分布性。
(2)给出特征间断性和分布性的量化方法,并在此基础上提出具有自适应能力的权重衰减函数,实现话题演化中的噪声特征识别研究,以降低话题漂移问题产生的可能。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。