首页 理论教育 判别分析:原理、方法及应用

判别分析:原理、方法及应用

时间:2023-07-24 理论教育 版权反馈
【摘要】:判别分析的任务是根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体。判别分析是对样本个体进行分类的另一种统计分析方法。PROC CANDISC 过程用来进行正交判别分析,正交判别分析是一种减少指标个数的判别分析,作用类似于主成分分析。SAS 系统中的STEPDISC 过程用于完成逐步判别分析。指标的测定结果见表11.4,试做判别分析。

判别分析:原理、方法及应用

在医学、兽医学、畜牧学研究中,常常会遇到需要根据观测到的资料对所研究的对象进行分类的问题。例如,需要根据病畜的各项症状、体征及血液生化指标,作出病畜是否患有某种疾病或某种疾病的哪一类型的诊断;又如在环境监测过程中,需要根据对某地区的环境污染的总和测定结果,来判断该地区属于哪一种污染类型等。判别分析是一种根据观测变量判断研究样本如何分类的多变量统计方法,它对于需要根据对样本中每个个体的观测来建立一个分组预测模式的情况是非常适用的。判别分析的任务是根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体。判别分析是对样本个体进行分类的另一种统计分析方法。分析过程基于对预测变量的线性组合产生一系列判别函数,但是这些预测变量应该能够充分体现各个类别之间的差异。判别函数是从每一个个体所属的类别已经确定的样本中拟合出来的,并且生成的函数能够运用于同样进行了预测变量观测的新的样本点,以判断其类别归属。

在SAS 统计系统中,用来进行判别分析的过程步骤有PROC DISCRIM、PROC STEPDISC和PROC CANDISC。PROC DISCRIM 可以筛选指标,适用于各种数据,PROC STEPDISC 可以用来筛选指标变量,且仅适用于类内为多元正态分布,具有相同协方差矩阵的数据。一般来说,当指标变量较多时,可以首先用PROC STEPDISC 过程筛选指标变量,然后用PROC DISCRIM 过程为筛选出来的指标变量建立判别函数。PROC CANDISC 过程用来进行正交判别分析,正交判别分析是一种减少指标个数的判别分析,作用类似于主成分分析。

本书中,以PROC STEPDISC 过程进行分析。SAS 系统中的STEPDISC 过程用于完成逐步判别分析。STEPDISC 过程定义了3 种筛选指标变量进入判别函数的方法,它们分别为向前选择法、向后选择法和逐步选择法。

(一)调用格式

PROC STEPDISC DATA= METHOD=FORWARD|BACKWARD|STEPWISE SLE= SLS=选项名列表;

CLASS 变量名列表;

VAR 变量名列表/选项列表。

(二)语句说明

①PROC STEPDISC 语句。

a.DATA 语句指定要分析的数据集名及一些选项,可以是原SAS 数据集,也可以是CORR、COV、UCORR、UCOV 等。

b.METHOD=语句用来确定逐步选择指标变量的方法,缺省时默认为STEPWISE。

c.SLE 和SLS 分别给出进入水平和停留水平,缺省时默认为0.15。

②CLASS 语句用来指定分类变量,这个分类变量可以是数值型变量,也可以是字符型变量。

③VAR 语句列出用来建立判别函数的指标变量,它们必须是连续型数值变量。

(三)实例应用

例11.5 为了研究湖羊在青藏高原高海拔地区的适应性,某科研所研究了高低海拔地区关于高寒低氧相关的10 多项指标,先取其6 项指标TC(总胆固醇)、TG(甘油三酯)、HDLC(高密度脂蛋白胆固醇)、LDLC(低密度脂蛋白胆固醇)、APOA(载脂蛋白AI)和APOB(载脂蛋白B)。指标的测定结果见表11.4,试做判别分析。(www.xing528.com)

表11.4 高低海拔湖羊6 项指标测定数据

SAS 程序如图11.24 所示。

图11.24 例11.5SAS 程序图(1)

输出结果为:

①分组变量的基本信息,包括频数、权重以及所占的百分比。本例中,两组变量的频数为30,权重为30.000 0,所占比例为50.000 0%。

SAS 程序如图11.25 所示。

图11.25 例11.5SAS 程序图(2)

②根据F 统计量,用逐波法筛选变量。

前两个步骤选入了HDLC 和TC 两个变量,第三步在α=0.3 的水准上选入变量APOA,接着又在α=0.05 水准上剔除了APOA。至此,既无变量可剔除,又无变量可选入,筛选过程至此结束。

这也是每一步选入变量后检验模型中全部变量的鉴别能力是否显著的结果。仅含HDLC、同时含HDLC 与TC、同时含3 个变量时的Wilks’ Lambda 统计量的值分别为0.722 2、0.636 9 和0.620 2,所对应的概率值均为P <0.000 1。增加变量APOA 后,倒数第2 列上的平均典型相关系数的数值增加很少,故在逐步筛选过程中,APOA 最后又被剔除了。

根据统计结果可得,6 个血液指标中筛选出两个有显著性意义的指标,用它们建立判别函数比较合适。SAS 程序输出如图11.26 所示。

图11.26 例11.5SAS 程序图(3)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈