要达到检验自变量对因变量是否有显著影响,首先要提出假设,然后构造一个用于检验的统计量来检验假设是否成立。具体步骤如下:
1)提出假设
根据方差分析问题的一般提法,在此要检验因素的k个水平(总体)的均值是否相等,需要提出以下假设:
H0:μ1=μ2=…=μk 分类自变量对数值型因变量没有显著影响
H1:μ1,μ2,…,μk 不全相等 分类自变量对数值型因变量有显著影响
例7.1的假设如前面所述:无色、粉色、橘黄色、绿色4种颜色饮料销量的均值分别为μ1,μ2,μ3,μ4,提出的原假设和备择假设为
H0:μ1=μ2=μ3=μk 颜色对饮料销量没有显著影响
H1:μ1,μ2,μ3,μk 不全相等 颜色对饮料销量有显著影响
如果拒绝原假设,则意味着自变量对因变量有显著影响,即颜色对饮料销量有显著影响;如果不拒绝原假设,则没有证据显示自变量对因变量有显著影响,也就是没有证据认为颜色与饮料销量之间有显著关系。值得一提的是,拒绝原假设时,只是表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等。
2)构造检验的统计量
下面结合例7.1的数据来说明构造检验统计量的计算过程。
(1)计算各水平样本的均值
假定从第i个总体中抽取一个容量为ni的简单随机样本,第i个总体的样本均值为该样本的全部观察值总和除以观察值的个数。计算公式为
式中,ni为第i个总体的样本观察值个数;xij为第i个总体的第j个观察值。
(2)全部观察值的总均值
全部观察值的总均值等于全部观察值的总和除以观察值的总个数;其计算公式为
式中
n=n1+n2+…+nk
例7.1中超市4个颜色饮料销量及其均值计算见表7.3。
表7.3 超市4个颜色饮料销量及其均值
(3)计算误差平方和
为了构造检验统计量,需要计算前面所阐述的3个误差平方和,分别是总误差平方和SST、水平项误差平方和SSA和误差项误差平方和SSE。
①计算总误差平方和SST
例7.1中总误差平方和的计算结果
SST=(40-53.25)2+…+(50-53.25)2=9027.5
②计算水平项误差平方和SSA
例7.1中水平项误差平方和的计算结果
③计算误差项平方和SSE
误差项平方和等于每个水平或组的各样本数据与其组平均值的离差平方和。它反映了每个样本各观察值的离散状况,又称组内平方和或残差平方和;该平方和反映的是随机误差的大小。其计算公式为
例7.1中误差项平方和的计算需要先求出每个颜色饮料销量与其均值的误差平方和,然后将4种颜色的误差平方和加总,即为误差项平方和。4种颜色饮料误差项平方和分别为
无色
粉色
橘黄色
绿色
则误差项平方和
SSE=2400+2112.5+1260+952.5=6725
④3个平方和之间的关系
总误差平方和(SST)、水平项误差平方和(SSA)、误差项平方和(SSE)之间的关系为
例7.1的计算结果:9027.5=2302.5+6725无疑也验证了上面3个误差平方和的关系。
⑤3个平方和的作用
总误差平方和SST反映全部数据总的误差程度;水平项误差平方和SSA(组间平方和)反映随机误差和系统误差的大小;误差项平方和SSE(组内平方和)反映随机误差的大小。
如果原假设成立,则表明没有系统误差,组间平方和SSA除以自由度后的均方与组内平方和SSE除以自由度后的均方差异就不会太大;如果组间均方显著地大于组内均方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差。
因此,判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小。到底这两者之间的差异要大到何种程度,才能表明系统误差存在呢?我们需要拿出我们的检验统计量和可以作出判断的临界值。
(4)计算检验统计量F
各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方(mean square),也称方差。计算方法是用误差平方和除以相应的自由度。3个平方和对应的自由度分别是:
SST(总误差平方和)的自由度为n-1,其中,n为全部观察值的个数;
SSA(组间平方和)的自由度为k-1,其中,k为因素水平(总体)的个数;
SSE(组内平方和)的自由度为n-k。
计算组间平方和和组内平方和的均方,计算过程如下:
组间方差:SSA的均方,记为MSA,计算公式为
例7.1中计算结果为
组内方差:SSE的均方,记为MSE,计算公式为(www.xing528.com)
例7.1中计算结果为
将MSA和MSE进行对比,即得到所需要的检验统计量F。当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为n-k的F分布,即
例7.1中F检验统计量的值为
3)统计决策
将统计量的值F与给定的显著性水平α的临界值Fα进行比较,作出对原假设H0的决策。
统计决策过程如图7.2所示。根据给定的显著性水平α,在F分布表中查找与第一自由度df1=k-1、第二自由度df2=n-k相应的临界值Fα(k-1,n-k)。
图7.2 统计量F的抽样分布
若F>Fα,则拒绝原假设H0,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响,即颜色对饮料销量有显著影响。
若F<Fα,则不能拒绝原假设H0,无证据支持表明所检验的因素对观察值有显著影响,即没有充分的数据显示颜色对饮料销量有显著影响。
例7.1中,根据前面的计算结果,计算出来的F=4.10855,取显著性水平α=0.05,则F统计量分子的自由度df1=k-1=4-1=3、分母自由度df2=40-4=36,查F分布表相应的临界值F0.05(3,36)=2.86627。因为F>Fα,拒绝原假设H0,即μ1=μ2=μ3=μ4不成立,表明4个颜色总体之间的均值有显著差异,即可认为颜色对饮料销量有显著影响。
4)方差分析表
前面已经详细地介绍了方差分析的整个计算过程和步骤,所有的计算过程和结构可用一张表来进行总结和直观地显示,这就是方差分析表。方差分析表的内容和形式见表7.4。
表7.4 方差分析表的一般形式
例7.1的方差分析表见表7.5。
表7.5 4个颜色饮料销量的方差分析表
5)用Excel进行方差分析
方差分析的过程上面已详细介绍了,从上面介绍的分析过程可以看到,进行方差分析需要大量的计算工作量,而要用手工计算是非常复杂的,这些计算工作可由计算机来完成,目前的统计软件都有方差分析程序,只要了解了方差分析的基本原理,就可对计算机的输出结果进行合理的解释和分析。在这里用读者熟悉的Excel软件,结合例7.1对用Excel进行方差分析来具体的说明。
用Excel进行方差分析的步骤和操作:
第1步:选择“数据”菜单,选择“数据分析”选项。
第2步:在分析工具中,选择“单因素分析”,然后单击“确定”按钮。
第3步:在出现的对话框中,在“输入区域”设置框内输入数据单元格区域B2:E11,在α设置框中输入“0.05”。在“输出选项”中,选择“新工作表组”,如图7.3所示。
第4步:选择“确定”后,就得到如表7.6所示的结果。
表7.6中“方差分析”部分:“SS”表示平方和,“df”表示自由度,“MS”表示均方,“F”表示F检验的统计量,“P⁃value”表示用于检验的“p值”,“Fcrit”为置信水平α的临界值。
图7.3 单因素方差分析的步骤
表7.6 方差分析的结果
在方差分析表7.6中,可以看到F=4.10855>F0.05(3,36)=2.86627,所以拒绝原假设,即μ1=μ2=μ3=μ4不成立,表明4种颜色总体之间的均值有显著差异,即可认为颜色对饮料销量有显著影响。
在进行决策时,也可用p值与显著性水平α相比较,表7.6中的p值=0.01321<0.05,所以拒绝原假设,即4种颜色总体之间的均值有显著差异,即可认为颜色对饮料销量有显著影响。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。