7.2.4.1 逐步判别法简介
判别函数、判别样本归类的功能强弱很大程度上在于如何选取指标。若判别函数中特异性强的指标越多,则判别函数的判别功能也越强。相反,不重要的指标越多,则判别函数就越弱,其判别效果非但得不到改进,甚至会达到相反的效果。所以要建立一个有效的判别函数,指标的选取不容忽视,过多过少都不一定合适。我们不仅要根据专业知识和经验来筛选指标,还得借助统计分析方法检验我们选取的这些指标的性能。
逐步判别法的目的就是选择有判别效能的指标来建立判别函数,使得判别函数更简洁,判别效果更稳定。其基本原理是根据自变量偏回归平方和的大小来筛选变量,自变量的选入或去除使得偏回归平方和增大或减小。逐步判别法根据多元方差分析中介绍的Wilks统计量来筛选判别指标,判别指标的选入或去除会使得Wilks统计量的减小或增大。通过选入或去除一个判别指标考察是否导致Wilks统计量明显减小或增大,来筛选判别指标。逐步判别分析法筛选指标或变量的方法有前进法、后退法和逐步法三种,每次选入或去除一个变量,其标准是通过计算Wilks量从而进行F检验。值得注意的是,逐步判别分析法只能保证对类别判断有统计意义的变量建立判别函数,其并不一定是平均错判率最小的判别函数。
逐步判别法的步骤如下:第一步:有m个变量候选。计算m个变量的类内离差平方和矩阵以及总离差平方和矩阵。第二步:假定已有r个变量入选,有m-r个变量候选。计算r个变量的离差平方和矩阵和总离差平方和矩阵。要考察入选的变量是否由于新变量的选入,老变量应去除或候选变量是不是被选入。(1)选入变量:对候选变量进行计算,如果将相应的变量选入,紧接着作变量去除。(2)去除变量:对入选变量逐一计算,将相应的变量去除。接着考察是不是还有入选变量能被去除,如果没有则进入变量选入过程。(3)重复第二步直到入选变量不能被去除,候选变量不能被选入为止。变量选择完毕后,假定入选了r个变量,再根据Bayes判别准则来构建r个变量的判别函数。
以上介绍了定量资料的三种判别分析方法,对于定性资料则运用的是最大似然判别法,本书不作详细介绍。
7.2.4.2 实例分析与SAS实现
一般在SAS软件分析判别方法时,较常用的过程步是proc discrim过程步和proc stepdisc过程步,它们的区别是后者仅用来筛选指标变量,且仅适用于类内为多元正态分布,具有相同方差协方差矩阵的数据。下面我们来学习逐步判别法的应用。我们使用上一节中的例子对15个样本中的7个指标进行筛选。
SAS程序:
proc stepdisc data=a2 method=stepwise;
class group;
var x1-x7;
run;(www.xing528.com)
SAS程序解释:
proc stepdisc表示我们使用逐步判别分析法。method选项有三种:stepwise,forward,backwark,分别是逐步,向前,向后,也可以加上纳入sle=和剔除标准sls=,当什么都不选时,系统默认方法为逐步法,纳入和剔除标准均为0.15。
SAS结果:
SAS部分结果输出如下:
图7-27 选择变量的方法为STEPWISE
图7-28 逐步选择汇总
SAS结果解释:
上述结果很简单,图7-27显示的是样本量、纳入和剔除标准等基本信息。图7-28显示的是最终留在模型里面有三个变量,即x1、x3和x7,也就是说这两个指标被筛选出来进行下一步的判别分析。一般地,当指标变量较多时,将两者结合使用(林少帆等,2020):首先使用proc stepdisc过程步筛选指标变量,然后用proc discrim过程步将筛选出来的指标变量建立判别函数。感兴趣者可用proc discrim过程步对上述15个样本筛选出来的三个指标进行判别分析,看看有无联系。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。