首页 理论教育 基于朴素贝叶斯的话题追踪及研究

基于朴素贝叶斯的话题追踪及研究

时间:2023-11-04 理论教育 版权反馈
【摘要】:此外,Li等[88]也提出应用朴素贝叶斯进行话题追踪。

基于朴素贝叶斯的话题追踪及研究

随机学习方法(例如随机森林)在计算机视觉应用领域表现出较大的优势,考虑到采用结构简单的朴素贝叶斯代替这些算法中的复杂树形结构,可以不影响算法的性能,Godec等[87]提出将朴素贝叶斯应用于在线追踪任务,并采用实验验证了该方法的有效性。此外,在基于朴素贝叶斯的话题追踪研究中,为解决话题漂移问题,Godec等在相关研究中考虑了时序因素,提出了基于时序信息的话题特征权重计算方法。

给定训练集合χ={(s1,y1),(s2,y2),…,(sn,yn)},其中s∈RD为D维特征空间上的样本,y∈{1,2,…,K}为类标签,依据3.5节的贝叶斯理论,样本s上的分类问题可以被公式化为:

P(i)是类i的先验概率,P(y|s)是关于样本s和类i的未知条件概率分布,假设样本s的表示特征wi相互独立,则:

假设类分布服从独立的一致性假设,则分类器F可表示为:

基于以上理论,为了得到更好的分类效果,Godec等建立了随机朴素贝叶斯分类器集成,假设有B个分类器,每个分类器随机选择F个特征,对于类i条件下样本s的概率分布为:(www.xing528.com)

在话题识别与追踪领域,n个话题可以认为是n类,当追踪一个新报道s的话题归属时,实际上是判断该报道属于n个话题的哪一类,可采用式(3-15)所示的计算方法计算条件概率值,然后选择最大的条件概率,并通过阈值比较确定该报道的归属。

此外,为解决在线话题追踪中的时序噪声和概念漂移问题,研究者们在上述研究的基础上,融入了时间信息,给出新的权重计算公式:

wt为t时刻的权重,t0表示当前的更新时间,r用于表示遗忘速度。

此外,Li等[88]也提出应用朴素贝叶斯进行话题追踪。考虑到文本分类是话题追踪过程中的关键技术,而贝叶斯算法又是一个有效的文本分类模型,Li等将贝叶斯模型作为文本分类的关键技术,并结合向量空间模型,提出了一个基于贝叶斯网络的话题追踪系统,实验结果显示,该系统具有较好的追踪性能。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈