判别分析是由判别对象多个指标的观测结果来判定其属于哪一类的统计方法。具体来说,此法是根据一批已经分类明确的样本在多个指标上的观察值,建立起一个关于指标的判别函数和判别准则,然后根据这个判别函数和判别准则对新的样本进行分类,且根据回代判别的准确率来评估它是否适用,但判别分析只能对样本分类进行判断,不可以对指标分类进行判断,这也是与聚类分析的不同点之一。
在日常生活和科学研究中,我们常需要对某一个体作出属于哪一类的判断,如医生由病人的某些化验结果或外形体症等对病人患有何种疾病下诊断结果;生物学家对动、植物所属的类、目、纲进行判断等(张宝珍,2005;郭志刚,2015)。判断的结果一般情况下是基于已有的历史数据或自己先前无数次判断的经验,即判别分析的前提是得具备已知分类的样本,再根据样本的已知分类及所测得的数据,筛选出最能表明研究对象特征的属性变量,根据这些变量和已知类别,建立起使误判率最小的判别函数。这样就可以利用判别函数计算新样本该分在哪一类。
判别分析的步骤如下:(1)建立判别准则:用于样本分类的法则。(2)建立判别函数:是关于指标变量的一个函数,每个样本在指标变量上的观察值代入判别函数后,就可以得到一个确定的函数值。原则为,将所有样本按其判别函数值的大小和原先定下来的判别原则分到不同的组后,能使得分组结果与原样本归属最为吻合。(3)回代样本:即算出的每个样本的判别函数值,且根据判别准则将样本进行归类。(4)估计回代的错误率:比较新的分组结果和原分组结果的差异,并以此确定判别函数的效能是否较高。(5)判别新的样本:如果判别函数效能较高,就可以用来对新的样本进行其归属类别的判别。(www.xing528.com)
下面将介绍判别效果是如何评价的。(1)用误判概率P来衡量。P=P(A|B)+P(B|A),其中P(A|B)是将B类误判成A类的条件概率;P(B|A)是将A类误判成B类的条件概率。一般要求判别函数的误判概率小于0.1或0.2才有应用价值,即正确判别率大于0.8,说明判别函数有效。误判概率可通过前瞻性或回顾性两种方法获取估量。所谓回顾性误判概率估计是指用创建判别函数的样本回代判别。回顾性误判概率估计通常会夸大判别的效果。通常来说,建立判别函数前要先将样本随机分为两个部分,分别占样本总量的15%和85%。前者用来考核判别函数的判别效果,称作验证样本。后者用来建立判别函数,称作训练样本。用验证样本计算的误判概率作为前瞻性误判概率估计,前瞻性误判概率估计具有客观性。(2)刀切法(jackknife)或称交叉核实法(cross validation)。刀切法具体步骤为:(1)顺序剔除一个样本,用剩下的N-1个样本创建判别函数。(2)用判别函数判别剔除的样本。(3)重复上两步N次。计算误判概率。其优势是充分利用了样本信息来建立和验证判别函数。
典型的判别分析法有Fisher判别分析法、Bayes判别分析法和逐步判别分析法。Fisher判别分析法是以距离为判别准则进行分类,换句话说,就是样本与哪个类的距离最短就分到哪一类。而Bayes判别分析法是以概率为判别准则进行分类,换句话说,样本属于哪一类的概率最大就分到哪一类。前者多用于两类判别,后者用于多类判别。逐步判别分析法适用于当判别分析中的指标较多时,进行指标筛选,它常和Bayes判别法结合起来,从而达到对事物的分类更加合理的目的。近年来,我们上面介绍的几种方法不仅有了发展,同时也有学者提出了一些新方法。随着计算工具软、硬件的改进和数据资料的积累,判别分析的应用也渐渐普及(Fraley et al.,2002)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。