首页 理论教育 方差分析的基本思想和原理

方差分析的基本思想和原理

时间:2023-07-03 理论教育 版权反馈
【摘要】:前面讲了方差分析的基本假定和提出的假设,下面则要分析如何得出方差分析的结果。图7.1中的折线是由销量的均值连接而成的。因此,进行方差分析时,需要考察数据误差的来源。例7.1中,来自于不同颜色的样本销量数据之间的误差就是组间误差,它反映了来自于不同颜色总体的样本数据之间的离散程度。例7.1中要检验颜色对饮料销量是否有显著影响,这里只涉及“颜色”一个因素,所以属于单因素方差分析。

方差分析的基本思想和原理

前面讲了方差分析的基本假定和提出的假设,下面则要分析如何得出方差分析的结果。要想达到检验4种颜色饮料销量的均值是否相等以此来分析颜色对饮料销量是否有显著影响这个目的,需要从引起数据的误差来源入手。在进行实质的数据误差来源分析之前,可先借助描述统计的手段来分析。为了方便理解,借用例7.1来详细说明下面的过程。

1)图形描述

到底如何分析呢?这里可借助前面学到的描述统计的手段。请记住要分析的目的是要判断颜色对饮料销量是否有显著影响,判断两个变量之间的关系,可借助反映两个变量之间的散点图,4个颜色饮料销量的散点图如图7.1所示。图7.1中的折线是由销量的均值连接而成的。

图7.1 不同颜色饮料销量的散点图

从散点图7.1中可知,不同颜色饮料的销量是有明显差异的,而且即使是同一种颜色,不同超市饮料的销量也明显不同。可知,橘黄色饮料的销量较高,而无色和粉色饮料的销量较低。这表明颜色和销量之间有一定的关系。因为如果颜色与销量之间没有关系,那么,它们销量的均值应该差不多相同,在散点图上所呈现的模式也就应该很接近。

2)误差分解

从散点图上虽然可以看出不同颜色饮料的销量是有差异,这种差异也可能是由于抽样的随机性所造成的,不管来自哪一方面,图形上反映的特征却无法给出充分的证据,即无法得出明显的量化指标。怎样得到充分的证据呢?我们可以借助方差分析。

之所以叫方差分析,因为虽然感兴趣的是均值,但在判断均值之间是否有差异时则需要借助于方差。方差分析是通过对数据误差来源的分析来判断不同总体的均值是否相等。因此,进行方差分析时,需要考察数据误差的来源。这里,结合例7.1来说明,力求让大家更容易明白。

首先,回顾一下例7.1的相关数据,其中一共有来自4个不同颜色总体的样本数据,即使来自同一个颜色,样本的各观测值也是不同的,为什么呢?由于超市是随机抽取的,因此,这些数据的差异可看成由于抽样的随机性所造成的,称为随机误差

◎定义7.5:组内误差(within groups)是指因素的同一水平(总体)下,样本各观察值之间的差异。

例如,例7.1中无色饮料中所抽取的10家超市饮料销量之间误差就是组内误差,它反映了一个样本内部数据的离散程度。很明显,组内数据的差异只是由于抽样的随机性导致的。

其次,若抽取的数据是来自不同的总体,那么,数据间的差异来源就不确定了。这种差异可能来自抽样的随机性,但是,也可能是因为来自于不同总体导致的。例7.1中,不同总体就体现为数据来自于不同颜色的饮料。由于不同颜色导致数据产生的差异可认为由于系统性因素造成的,称为系统误差

◎定义7.6:组间误差(between groups)是指因素的不同水平(不同总体)下,各观察值之间的差异。

例7.1中,来自于不同颜色的样本销量数据之间的误差就是组间误差,它反映了来自于不同颜色总体的样本数据之间的离散程度。这些数据既是随机抽取的,又来自于不同颜色,因此,组间误差中既包含随机误差,也包含系统误差。(www.xing528.com)

要判断的分类自变量对数值型因变量的影响这里就可以跟系统误差对应起来。下面需要具体把误差具体量化出来。在方差分析中,数据的误差一般用平方和(sum of squares)来表示。可根据样本数据计算出几个类别的误差平方和。

◎定义7.7:总误差平方和(sum of squares for total)是指反映全部数据误差大小的平方和,记为SST。

例7.1中,抽取的10家超市饮料销量之间的误差就是总误差平方和,它反映了全部观测值的离散程度。

◎定义7.8:组内误差平方和是指因素的同一水平(同一个总体)下样本数据的平方和,也称误差项平方和(sum of squares for error),记为SSE。

同一总体抽取的样本内部的数据平方和加在一起就是组内平方和,反映了每个总体抽取的样本内各观测值的离散状况。例如,无色饮料销量的误差平方和就是组内平方和,它只包含随机误差。

◎定义7.9:组间误差平方和(sum of squares for factorA)是指因素的不同水平(不同总体)下个样本之间的平方和,也称水平项平方和,记为SSA。

例如,4个颜色饮料销量之间的误差平方和就是组间平方和,它既包括随机误差,也包括系统误差。这3个平方和之间有这样的关系为

总平方和=组内平方和+组间平方和

在后面的章节里会用数据证明这一点。

3)误差分析

结合前面的目的,如果颜色对饮料销量没有影响,那么系统误差就没有了,这样的话组间误差就只含有随机误差。而组内误差只含有随机误差,同样都只有随机误差的组内误差和组间误差就应该比较接近,它们的比值就会接近1;相反的,如果颜色对饮料销量有影响,那么,组间误差同时有系统误差,也有随机误差。这时,组间误差平均后的数值就会大于组内误差平均后的数值,它们的比值就会大于1,当这个比值大到某种程度时,就可说不同水平之间存在着显著差异,也就是自变量对因变量有影响。因此,判断颜色对饮料销量是否有显著影响这一问题,实际上就是检验饮料销量的差异主要是哪种原因导致的。

如果差异主要是系统误差的话,那么,就有理由认为饮料销量差异是由于不同颜色导致的,即颜色对饮料销量有显著影响。在方差分析的假定前提下,要检验颜色这个分类自变量对饮料销量这个数值型因变量是否有显著影响,在形式上可转化为检验4个颜色饮料销量的均值是否相等的问题。这一检验中,需要回答的关键问题是:构造的检验统计量的值要达到何种程度时,才可以拒绝原假设呢?在下面的一节中,将讲解方差分析的详细过程。

上一节中已经详细讲解了方差分析的定义和目的,下面将继续针对第一节中的例题来讲解方差分析的详细过程。例7.1中要检验颜色对饮料销量是否有显著影响,这里只涉及“颜色”一个因素,所以属于单因素方差分析

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈