首页 理论教育 朴素贝叶斯在文本分类中表现优异

朴素贝叶斯在文本分类中表现优异

时间:2023-11-26 理论教育 版权反馈
【摘要】:朴素贝叶斯是一个归纳学习的概率方法,并且属于贝叶斯分类器的通用类。这种条件独立假设很明显违背了真实数据,但是实验表示朴素贝叶斯分类在文本文档分类中表示很好。目前,朴素贝叶斯分类器主要存在两种通用的模型,分别是多元伯努利模型和多项试模型。为了使得非频繁词汇的概率估计更为健壮,平滑的方法被引入来调整其概率。相对于其他的学习方法而言,朴素贝叶斯算法的另外一个优点是非常有效并且容易实现。

朴素贝叶斯在文本分类中表现优异

朴素贝叶斯是一个归纳学习的概率方法,并且属于贝叶斯分类器通用类。该方法基于前期的观察数据生成一个概率模型,并估计文档d属于类别C的后验概率P(c|d),这种估计基于C的先验概率P(c)和文档d的先验概率P(d)。贝叶斯理论被用于计算P(c|d):

基于最高概率对文档d进行分类:

通常P(d)被去除,因为对于所有的c都是相同的。这里P(c|d)和P(c)的值是未知的,需要通过观察训练数据来进行估计。然而,这种方式估计P(d|c)是有问题的,因为观测数据通常不足以生成好的概率。朴素贝叶斯分类器通过独立性假设简化该模型克服了这个问题。对于文档中的每个词,概率被独立地逐个估计而不是作为完整的文档来进行估计。这种条件独立假设很明显违背了真实数据,但是实验表示朴素贝叶斯分类在文本文档分类中表示很好。

目前,朴素贝叶斯分类器主要存在两种通用的模型,分别是多元伯努利模型和多项试模型。两个模型都将文档作为文档词汇集之上的值向量V,向量中的每一个条目表示该词是否出现在文档中,并且两个模型都失去了词汇的顺序信息。多元伯努利模型将每个词编码为二元属性,而多项式模型统计词汇在文档中出现的次数。经验表示,多项式模型要优于多元伯努利模型,并且对于大的词汇表来说,效果更为明显。多项式模型使用文档向量计算P(cj|di)的方法如下:(www.xing528.com)

N(di,tk)是tk出现在文档di中的次数。相对于整个词汇集V,这里仅仅使用包括出现在文档di中的一个子集Vdi。实现朴素贝叶斯的关键一步是估计词的概率P(tk|cj)。为了使得非频繁词汇的概率估计更为健壮,平滑的方法被引入来调整其概率。平滑最重要的影响是对于一个特定的类,它避免分配给那些没有出现在训练文档中的词汇零概率。尽管朴素贝叶斯的性能不如K最邻近结点(K-Nearest Neighbor,KNN)分类或支持向量机(Support Vector Machine,SVM)等统计学习方法那么好,但在那些概率计算不重要的分类任务中表现出了较好的性能。相对于其他的学习方法而言,朴素贝叶斯算法的另外一个优点是非常有效并且容易实现。

尽管在大规模的词汇集中,基于多项式模型的分类器明显的优于基于多元伯努利模型,但是当训练集中的文档具有不同的长度时,将导致较差的参数估计。另外当处理稀疏数据时性能也不能令人满意。这些问题频繁的发生在用户建模中,在用户建模中无法假设文档长度,并且获取否定例子集合也是个问题。事实上,因为用户并不能从负面反馈中获取即时的利益,所以正面反馈集远远大于负面反馈集。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈