首页 理论教育 多元统计分析案例解析与SAS实用

多元统计分析案例解析与SAS实用

时间:2023-10-30 理论教育 版权反馈
【摘要】:数据需要符合有不可删除的离群值,本节实证分析截取了中国家庭追踪调查中2016年儿童问卷的部分数据来探讨儿童年龄、儿童至今吃母乳月数对儿童体重的影响。将其数据命名为数据集exe3_3来演示稳健回归。结果分析显示weight的标准差与MAD的差值为14.8260-11.2546=3.5714;age的标准差与MAD的差值为11.8608-10.7823=0.0785;time的标准差与MAD的差值为11.8608-11.0868=0.7740;3.5714比0.0785和0.7740大,提示weight更有可能存在异常值。图3-21数据诊断结果显示离群点的比例为0.2105,杠杆点的比例为0.2105。

多元统计分析案例解析与SAS实用

数据需要符合有不可删除的离群值,本节实证分析截取了中国家庭追踪调查中2016年儿童问卷的部分数据来探讨儿童年龄、儿童至今吃母乳月数对儿童体重的影响。将其数据命名为数据集exe3_3来演示稳健回归

变量

weight:体重

自变量

age:年龄

time:孩子至今吃母乳月数

首先采用线性回归对数据进行异常点诊断分析,然后采用稳健回归对数据进行分析,稳健回归先对数据进行OLS回归,重点观察回归结果中的残差、拟合值、Cook距离和杠杆率。

SAS程序:

proc reg data=exe3_3;

model weight=age time/r influence;

run;

SAS程序解释:

其中proc reg表示我们使用一般线性回归进行模型拟合,r表示r进行残差分析,influence寻找强影响点。

SAS结果:

SAS结果输出如下:

图3-13(a) 方差分析

图3-13(b) 方差分析

图3-14 参数估计

图3-15 统计输出结果

SAS结果解释:

图3-13(a)和图3-13(b)表示方差分析结果,图3-14表明解释变量年龄对体重的影响无统计学差异(t=1.57,p=0.1371),儿童至今吃母乳月数对体重的影响有统计学差异(t=4.22,p=0.0006)。图3-15中第15号观测的学生化残差(Student Residual)绝对值远远大于其他观测,而杠杆值(Hat Diag H)并不是非常高,提示其因变量为异常点;第16号观测的杠杆值远远大于其他观测,而学生化残差并不很高,提示其自变量为异常点;Cook's D值和DFFITS则显示,第15号和第16号的值均高于其他观测的值,提示这两个观测可能为强影响点。图3-16直观地展示了Cook's D值由一般线性回归分析可知存在强影响点,且其值较大,因此我们采用稳健回归对数据进行分析。

图3-16 残差和Cook's D

SAS程序:

proc robustreg data=exe3_3 method=mm;(www.xing528.com)

model weight=age time/diagnostics leverage;

run;

SAS程序解释:

proc robustreg表示进行稳健回归分析,method指定稳健估计方法,可选的有M、LTS、S、MM;model options:diagnostics进行异常点诊断,leverage进行杠杆点诊断。

SAS结果:

SAS结果输出如下:

图3-17 变量的统计描述

图3-18 MM估计的概括性描述

图3-19 参数估计

图3-20 数据诊断

图3-21 数据诊断结果

图3-22 模型拟合结果

SAS结果解释:

在图3-17的统计描述中,因为绝对离差中位数(MAD)是稳健的变量尺度,标准差与MAD差值越大,提示可能存在异常。结果分析显示weight的标准差与MAD的差值为14.8260-11.2546=3.5714;age的标准差与MAD的差值为11.8608-10.7823=0.0785;time的标准差与MAD的差值为11.8608-11.0868=0.7740;3.5714比0.0785和0.7740大,提示weight更有可能存在异常值。

图3-18为MM估计的概括性描述,结果显示最高的失效点为3.4400,估计率为0.85。失效点通常来讲就是所需的估计方法在数据有多少异常点时仍可保持模型的稳健性。失效点所占比例越高,表明估计方法越稳健。

图3-19为参数估计结果给出了参数的MM估计、标准误、95%可信区间、卡方值及相应的p值。稳健回归所得方程为:

weight=3.9811+0.9961age+0.0044time

但通过参数估计的结果显示年龄的偏回归系数为0.9961(p<0.0001),与体重存在线性关系,但儿童至今吃母乳月数的偏回归系数为0.004(p=0.6732),无统计学差异,可以将不显著的解释变量从模型中剔除。

图3-20数据诊断结果:杠杆点主要根据稳健MCD距离(robust MCD distance)判断,当该值大于诊断界值(cutoff)时,即判断为杠杆点,并以“*”标识;离群点主要根据稳健残差(robust residual)判断,当该值的绝对值大于诊断界值(cutoff)时,即判断为离群点,并以“*”标识;第15号判断为离群点,第8号判断为高杠杆点,第1、11、16号判断为高杠杆点,且同时为离群点。

图3-21数据诊断结果显示离群点的比例为0.2105,杠杆点的比例为0.2105。

图3-22模型拟合结果:最后拟合优度显示R2=0.7901,因变量观测值的总变异中能够被模型解释的部分为79.01%。可以发现稳健回归的结果与普通线性回归所得到的结果相差较大,这是因为当数据中存在高杠杠点、离群点甚至强影响点时,普通线性回归受他们的影响特别大,很有可能由于一两个数据的影响而偏离了实际,而稳健回归则避免了这种误导。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈