贝叶斯判别分析理论是贝叶斯学派的一个重要理论,也是判别分析算法中较为常用的一种,它具有坚实的概率统计学理论基础,而且判别分析过程简便快速,判别结果有较高的准确性,因此应用十分广泛。贝叶斯定理是用18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)的名字命名的。设X是数据元组,X用n个属性集的测量描述;令H为某种假设;P(H|X)则是给定观测数据元组X,假设H成立的概率。P(H|X)是在条件X下,H的后验概率(posterior probability);相反,P(H)是H的先验概率(prior probability)。类似的,P(X|H)是条件H下,X的后验概率,而P(X)是X的先验概率。贝叶斯定理提供了一种由P(X)、P(H)和P(X|H)计算后验概率P(H|X)的方法。
式(7.3)称为贝叶斯公式。在分类问题中,X为数据元组,H可定义为数据元组X属于某特定类C,而确定后验概率P(H|X)为给定X的数据描述找出元组X属于类C的概率。贝叶斯判别分析方法是一种统计学分类方法,可以预测类成员关系的可能性,如给定元组属于一个特定类的概率,其基于概率统计理论的判定结果具有较高的可靠性,因此具有较高的可信度,在数据挖掘和决策支持中有重要应用。
贝叶斯判别方法是一类以贝叶斯定理为基础的判别分析方法,当前应用较为广泛的贝叶斯判别方法主要有以下几种。
1.朴素贝叶斯分类法(Naïve Bayesian Classifier)
所谓朴素贝叶斯分类法是先假定数据对象的属性对于判定分类的影响与其他属性相互独立,这种假定称为类条件独立;然后运用贝叶斯定理对训练集进行学习,得到分类规则(贝叶斯分类概率表);再对目标对象进行概率计算,其所属类为后验概率最大的类。
2.贝叶斯信念网络(Bayesian Belief Networks)(www.xing528.com)
贝叶斯信念网络的分类思想也是基于贝叶斯定理,计算目标对象后验概率最大的类,其特点是在于,肯定变量或属性之间的依赖关系,使用体现联合条件概率分布的贝叶斯信念网络来描述分类规则。
3.树扩展朴素贝叶斯分类法(Tree-augmented Naïve Bayesian Classifier,TAN)
在实际应用中,朴素贝叶斯分类法是一种简单而快速的分类方法,且具有较高的准确性,可以与决策树和神经网络算法相媲美,但其假定的类条件独立在一些特定环境下,如数据属性关联度较大的情况,会导致分类结果准确性受到影响;而贝叶斯信念网络由于肯定了变量或属性之间的依赖关系,因此具有更高的准确性,但由于信念网络构造过程的复杂性,使得对训练集的学习过程耗时较长。为了既考虑属性间的依赖关系,又具有较快的学习速度,Nir Firedman提出了树扩展朴素贝叶斯分类法(TAN)的概念,其分类规则是以类变量为根节点,每个属性变量以类变量和最多一个属性变量为父节点的树形结构来表示的。
以上主要介绍了贝叶斯判别分析方法基本类型,其中构造贝叶斯信念网络和TAN分类器的构造算法,是需要根据特定的数据集情况来选择的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。