向量空间检索模型在话题识别与追踪领域的成功应用,从理论上验证用于信息检索的贝叶斯网络亦可用于该领域。本书尝试将贝叶斯网络检索模型之一——信念网络模型用于话题建模,为该领域提出新的研究方法,展开基于信念网络的话题识别与追踪研究。
结合信念网络模型和新闻报道的特点,吴树芳等给出四个基于信念网络的话题模型:基于信念网络的静态话题模型Ⅰ(BSTM-Ⅰ)、基于信念网络的静态话题模型Ⅱ(BSTM-Ⅱ)、基于信念网络的动态话题模型Ⅰ(BDTM-Ⅰ)和基于信念网络的动态话题模型Ⅱ(BDTM-Ⅱ),包括模型的拓扑结构和概率推导。其中BSTM-Ⅰ和BSTM-Ⅱ属于静态话题模型,即在话题追踪过程中,话题内容保持不变,保证了话题初始核心内容的守恒,为体现新闻话题中核心报道、核心事件的重要性,在BSTM-Ⅰ的基础上,BSTM-Ⅱ加上了事件层,并对特征权重进行两次调整,提高了话题识别与追踪的准确性。这两个模型的优点是准确率高,缺点是不能动态更新话题内容导致漏报率高。BDTM-Ⅰ属于动态话题模型,即在话题追踪过程中,话题内容将会不断充实,从而降低话题识别与追踪的漏报率。以上三个话题模型沿用了传统建模思想,具备和以往模型相同的优缺点:静态模型高漏报率、低误报率,动态模型高误报率、低漏报率。第四个基于信念网络的话题模型BDTM-Ⅱ运用信念网络模型提供了一个灵活框架的优势,将话题的初始核心内容和更新内容作为两项证据进行归并,实现了对静态模型和动态模型优缺点的折中,有效地控制了话题漂移现象。根据应用领域的不同,以上四种模型均具备存在的必要性。本书在后续研究中多采用BDTM-Ⅱ作为表示模型,展开热点话题发现及演化的理论研究或者实证研究。
1.基于信念网络的静态话题模型
静态话题模型的基本思想是保持初始核心的守恒,即对于新闻话题t,其描述内容始终为初始识别时的内容,不会随着时间的推移而动态更新。该模型的优点是不会出现话题漂移现象,误报率比较低。本书给出了两个基于信念的话题模型,图3-5为基于信念网络的静态话题模型Ⅰ(BSTM-Ⅰ)。观察图3-5可以发现,静态信念网络话题模型包括三类节点:待检测报道节点sn,对话题的描述节点(术语节点)ki,待追踪话题节点tj,话题的所有初始描述术语组成术语集合C,该集合为话题的初始核心内容。图中的弧表示索引关系,即如果术语ki∈tj,则有一条弧自特征ki指向话题tj。
图3-5 基于信念网络的静态话题模型Ⅰ(BSTM-Ⅰ)
上述模型采用条件概率计算新报道sn和话题tj的相似度,依据贝叶斯理论,计算公式如下:
其中,α是一个规范化因子,c⊆C为概念空间(核心内容)的子集,也可以认为是一个基本概念,这里的定义和应用于信息检索领域的基本信念网络模型是一致的。如果集合C中包含m个术语,则该集合的子集个数为2m,一般假设集合C的所有子集等概率出现。此外,在信念网络检索模型中,对条件概率P(tj|c)、P(sn|c)的不同规定可以得到不同的排序策略,参考用于信息检索的信念网络模型相关理论,本书做出如下定义:
其中,“条件1”描述为:num(sn∩c)>λ,λ为预设值,num(sn∩c)和num(c)分别表示集合{sn∩c}和{c}中的术语个数,依据以上公式可以计算出新报道sn和已有话题tj的相似度,如果相似度值大于阈值θ,则认为sn属于话题tj,否则判断该话题属于其他已知话题还是新的种子话题。
在BSTM-Ⅰ模型的基础上,文献[89]给出了第二个基于信念网络的静态话题模型(BSTM-Ⅱ)。其拓扑结构包括四类节点:新报道、术语、事件、话题。加入事件节点层的目的有两个:一是模型化地表示出术语、报道、事件、话题的归属关系,二是为了体现核心事件在话题中的重要性。拓扑结构中的弧依然标明节点间的索引关系。在概率推导过程中,为了突出核心报道、核心事件的重要性,BSTM-Ⅱ对特征权重进行了两次调整。
BSTM-Ⅱ模型的构建需要基于以下工作:
(1)运用样本报道已构建出术语库C={k1,k2,…,kn}。其构建过程可采用一定的分词技术,获得部分术语来表示每个样本报道si。
(2)已构建事件库E={e1,e2,…,em},每个事件由多个报道组成,同一个事件中的所有报道围绕核心报道展开,所以在事件描述中,核心报道中出现的术语权重应该提高,可采用下式所示的提高方法对初步形成的术语库C中的个别术语权重做出调整:其中,w()是某个事件中的核心报道中的术语调整后的权重,α是一个提高因子,其值大于1。
(3)已构建话题库T={t1,t2,…,tr},构建方法和从术语库到事件库的构建类似,话题库中的每一个话题ti的描述术语来源于与其对应的事件库。与上述内容类似,一个话题往往围绕一个核心事件展开,为体现核心事件在话题中的重要性,这步工作将对核心事件中的术语权重做出调整,调整策略如下:
依据上述建好的术语库、事件库和话题库,建立适合话题识别的信念网络模型拓扑结构,如图3-6所示,并给出了识别新报道sn的概率计算,通过阈值比较,判断sn属于已有话题还是新的种子话题。
图中的节点包括四部分,分别表示新报道sn,用于描述报道的术语ki,用于描述事件的ei和话题ti。弧的指向表明索引关系,例如报道术语库中的术语k1,k2,k3,k4均有弧指向新报道sn,则sn={k1,k2,k3,k4}。观察图3-6可以发现,整个网络是信念网络,但是虚框括起的部分是推理网络,所以在概率推理过程中还涉及推理网络的相关知识。假设所有话题ti的先验概率是相等的,依据贝叶斯概率、条件独立性假设和推理网络相关知识可得如下公式:
图3-6 基于信念网络的静态话题模型Ⅱ
式中,η是一个规范化因子,条件概率P(ti|e),P(sn|c)和P(e|c)可分别由式(3-27)~式(3-29)计算:
根据式(3-26)计算报道sn和所有已有话题ti(i=1,2,…,r)的相似度,获得,若其值大于给定的阈值θ,则将新报道sn归类为相似度最大的话题,否则将其作为新的种子话题输出。(www.xing528.com)
2.基于信念网络的动态话题模型
动态话题模型的思想不同于静态话题模型,话题的描述内容会随着时间的推移动态更新,其基本思想是:对于话题tj,如果新报道sn属于该话题,则话题的初始核心内容将会更新,这是正向的更新,为了获得更好的追踪效果,Zhang等[90]在其相关研究中同时进行了正向和逆向的更新:即如果新报道属于已有话题则正向更新,如果新报道不属于已有话题则逆向更新,即权重衰减。理论上,动态话题模型更符合实际情况,其优点是降低漏报率,缺点是可能提高误报率。动态信念网络话题模型Ⅰ(BDTM-Ⅰ)如图3-7所示。
图3-7 基于信念网络的动态话题模型Ⅰ
基于信念网络的动态话题模型的节点类别与静态信念网络话题模型相同,依然包括报道节点sn,话题节点tj和术语节点ki,此外弧的指向依然标识索引关系。二者的不同在于初始核心是否守恒,动态信念网络话题模型会随着话题的发展不断融入新的信息,体现话题的动态演化。
该模型仍然采用式(3-20)计算待测新闻报道和话题的相似程度,根据计算结果和阈值比较,如果新闻报道sn和话题tj是相关的,需要处理以下两种情况:
(1)如果新的相关报道sn中的术语knm在话题tj中也存在,即knm∈sn,则需要对话题tj中的术语knm的权重wnm进行调整,调整方法如下:
其中,topic(wnm)表示术语knm未调整之前在话题tj中的权重,new(wnm)表示术语knm在待测报道sn中的权重,final(wnm)表示话题tj中术语knm的调整后权重。
(2)如果术语knm属于报道sn,但是不属于话题tj,则直接将该术语加入话题,topic(wnm)=new(wnm),且模型需要作出相应的动态调整:将术语knm作为话题tj的描述特征加入到图3-7所示模型的左侧术语集合,增加一条由术语knm指向话题tj的弧。
观察图3-5和图3-7,分析静态信念网络话题模型和动态信念网络话题模型,可以发现,二者的计算方法从形式上看完全相同,不同点在集合C。静态信念网络话题模型的C始终保持不变,而动态信念网络话题模型的C会随着话题的演化而不断更新。
随着话题的不断发展、演化,话题的初始核心术语的权重可能会不断被调整,如果在演化的过程中将错误的信息用于更新,则会冲淡话题的初始核心,甚至出现漂移,这也是传统动态话题模型的典型缺点。为解决该问题,吴树芳等[89]提出了另一个动态信念网络话题模型,该模型充分利用了信念网络的优点。信念网络的最大优势是其提供了一个灵活的框架,可以有效地归并不同的证据信息。如果能把话题的初始核心内容和动态更新内容作为两类证据分别对待,则可以有效解决BDTM-Ⅰ的缺点。基于上述分析,研究者们提出了BDTM-Ⅱ,其拓扑结构如图3-8所示。图3-8所示拓扑结构的节点类型和弧的指向的意义与上述三个模型相同,不同点在中间的术语层。BDTM-Ⅱ将术语节点分为两类:初始核心术语ksi(这些术语组成初始核心证据C)、动态更新术语kui(这些术语组成动态更新证据U),该模型最终可通过析取或者合取运算将两类证据归并。
观察图3-8可以发现,如果将模型中右侧的动态更新证据U去掉,则该模型退化为信念网络静态话题模型;如果不将初始核心证据与更新证据分开,则该模型的拓扑结构与BDTM-Ⅰ一致。通过上述分析可以发现,从拓扑结构上来看,BDTM-Ⅱ的灵活性优于BSTM-Ⅰ和BDTM-Ⅰ。
依据贝叶斯概率、条件独立性假设和析取运算(or)的定义,可采用下式计算BDTM-Ⅱ中新报道sn和话题tj的相似度:
图3-8 基于信念网络的动态话题模型Ⅱ
其中,μ为规范化因子,概率P(c)和P(u)运用式(3-23)计算(所有子集等概率出现),概率P(tsj|s)、P(tuj|u)采用式(3-22)计算,P(sn|s)和P(sn|u)采用式(3-21)计算。
式(3-31)中,初始核心证据部分用于降低误报率,动态更新证据部分用于降低漏报率,二者的有效融合可以实现静态话题模型和动态话题模型优缺点的折中。为了适应不同应用场景的具体需求,对式(3-31)做出修正,加上二者的贡献度参数α和β,修订后的公式如式(3-32)所示。
观察式(3-32)可以发现,如果参数α=0,则动态信念网络话题模型Ⅱ变为动态话题模型Ⅰ,如果参数β=0,则动态信念网络话题模型Ⅱ变为静态信念网络话题模型Ⅰ。
在话题追踪过程中,动态信念网络话题模型Ⅱ的初始核心证据C始终不会变化,如果新报道sn和话题tj相似,则更新证据U将会变化,其更新方法如下:
(1)如果新报道sn中的术语kni从未在更新证据U中出现,则直接将其加入U;
(2)如果新报道sn中的术语kni在更新证据U中存在,则对其权重进行调整,调整方法同动态信念网络话题模型Ⅰ。
考虑到动态信念网络话题模型Ⅱ的优势,本书在后续研究中,均采用该模型作为表示模型,展开热点话题的发现与演化研究。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。