与进行单因素方差分析的原理一样,需要拿出数据,然后按照方差分析的分析步骤来进行双因素方差分析。
1)数据结构
在无交互作用的双因素方差分析中,要分析两个因素(行因素和列因素)对因变量的影响。设行因素有k个水平;列因素有r个水平。行因素和列因素的每一个水平都可以搭配组合成一组,以此来观察它们对试验数据的影响,一共有k×r=kr个观察数据。其数据结构见表7.7。
表7.7 双因素方差分析的数据结构
表7.7中,行因素共有k个水平,列因素共有r个水平。每一个观察值xij(i=1,2,…,k;j=1,2,…,r)看作由行因素的k个水平和列因素的r个水平所组合成的kr个元素的总体中抽取的样本容量为1的简单独立随机样本。其中,每一个总体都服从正态分布,且有相同的方差。
2)分析步骤
有了基本的数据,就可用方差分析的步骤得出结果了。
(1)提出假设
这里进行的是无交互作用的双因素方差分析,所以只需要检验两个独立因素对因变量的影响,需要对两个因素(行因素和列因素)分别提出以下假设:
对行因素提出的假设为
H0:μ1=μ2=…=μi=…=μk 行因素对因变量没有显著影响
H1:μi(i=1,2,…,k) 不全相等 行因素对因变量没有显著影响
(μi为第i个水平的均值)
对列因素提出的假设为
H0:μ1=μ2=…=μj=…=μr 列因素对因变量没有显著影响
H1:μj(j=1,2,…,r) 不全相等 列因素对因变量没有显著影响
(mj为第j个水平的均值)
(2)构造检验的统计量
为了检验原假设H0是否成立,需要分别确定检验行因素和列因素的统计量。与7.2单因素方差分析构造检验统计量的原理和方法一样,同样是从分析误差平方和的来源入手对总误差平方和进行分解,只不过这里多了一个因素而已,那么,这里需要计算的误差平方和也会多一个。需要计算的误差平方和如下:
总误差平方和
从总误差平方和的公式中可以看出,总误差平方和可分解为3项,下面分别对3项进行解释。
总误差平方和分解后的等式右边的第一项是行因素所产生的误差平方和,记为SSR。其计算公式如下:
行因素误差平方和
第二项是列因素所产生的误差平方和,记为SSC。其计算公式如下:
列因素误差平方和
第三项是除行因素和列因素影响之外的剩余因素产生的误差平方和,称为随机误差项平方和,记为SSE。其计算公式如下:
随机误差项平方和
从公式中很容易看出总误差平方和(SST)、水平项误差平方和(SSR和SSC)、误差项平方和(SSE)之间的关系为
在计算出误差平方和的基础上,需要将各项误差平方和除以对应的自由度,得到各自的均方,再来根据均方构建检验统计量。与各误差平方和对应的自由度如下:
总误差平方和SST的自由度为kr-1。
行因素的误差平方和SSR的自由度为k-1。
列因素的误差平方和SSC的自由度为r-1。
随机误差平方和SSE的自由度为(k-1)×(r-1)。
各因素的均方计算和表述如下:
行因素的均方,记为MSR。其计算公式为
列因素的均方,记为MSC。其计算公式为
随机误差项的均方,记为MSE。其计算公式为
下面需要针对前面提出的行因素和列因素的假设计算检验统计量。
检验行因素的统计量
检验列因素的统计量
(3)统计决策
计算出相应的检验统计量之后,根据给定的显著性水平α在F分布表中查找相应的临界值Fα,将计算出来的检验统计量的值F与给定的显著性水平α的临界值Fα分别进行比较,作出对原假设H0的决策。
若FR>Fα,则拒绝原假设H0,即μ1=μ2=…=μi=…=μk不成立,表明不同行因素水平的均值之间的差异是显著的,即所检验的行因素对观察值有显著影响。
若FC>Fα,则拒绝原假设H0,即μ1=μ2=…=μj=…=μr不成立,表明不同列因素水平的均值之间有显著差异,即所检验的列因素对观察值有显著影响。
(4)无交互作用的双因素方差分析表
同样的,可将上述计算过程和结果清晰地显示到一张表当中,无交互作用的双因素方差分析表的一般形式见表7.8。
表7.8 无交互作用的双因素方差分析表的一般形式
为了便于大家理解,下面将结合实例来进行无交互作用的双因素方差分析。
【例7.2】 某品牌计算机在不同地区使用不同的营销方法进行销售,为了分析地区与营销方法对计算机销售收入的影响,公司的市场营销部对6个地区使用营销方法所取得的销售收入做了调查,表7.9就是调查得到的数据。试分析地区和营销方法对销售收入是否有显著影响?(α=0.05)
表7.9 不同地区在不同营销方法下的销售收入/万元
在例7.2中,地区和营销方法是两个分类自变量,销售收入是一个数值型因变量。同时分析地区和营销方法对销售收入的影响,分析究竟是一个因素起作用还是两个因素都起作用,抑或是两个因素都不起作用,这就是一个双因素方差分析的问题。在这个双因素方差分析中,由于行因素“地区”和列因素“营销方法”对销售收入的影响是独立的,因此,这里进行的是无交互作用的双因素方差分析。[2]
解 对两个因素分别提出下面的假设。
行因素(地区):
H0:μ1=μ2=μ3=μ4=μ5=μ6 地区对销售收入没有显著影响
H1:μ1,μ2,μ3,μ4,μ5,μ6 不全相等 地区对销售收入有显著影响
列因素(营销方法):
H0:μ1=μ2=μ3 营销方法对销售收入没有显著影响
H1:μ1,μ2,μ3 不全相等 营销方法对销售收入有显著影响
_用Excel进行无交互作用的双因素方差分析的步骤和操作:
第1步:选择“数据”菜单,选择“数据分析”选项。
第2步:在分析工具中,选择“方差分析:无重复双因素分析”,然后单击“确定”按钮。
第3步:在出现的对话框中,在“输入区域”设置框内输入数据单元格区域B2:D7,在α设置框中输入“0.05”。在“输出选项”中,选择“新工作表组”,如图7.4所示。
第4步:选择“确定”后,就会出现方差分析的结果,见表7.10。
图7.4 无交互作用的双因素方差分析过程
表7.10 无交互作用的双因素方差分析过程
从表7.10中可以看出,行因素(地区)的检验统计量的值FR=3.02052<Fα=3.32583,所以不拒绝原假设H0,没有证据表明μ1,μ2,μ3,μ4,μ5,μ6之间的差异显著,即不能认为地区对销售收入有显著影响。
列因素(营销方法)的检验统计量的值FC=103.693>Fα=4.10282,所以拒绝原假设H0,即μ1=μ2=μ3不成立,说明μ1,μ2,μ3之间的差异显著,即营销方法对销售收入有显著影响。
此外,还可用p值来对原假设进行检验。在表中,行因素(地区)的p值=0.06442>α=0.05,所以不拒绝原假设H0,即没有证据显示地区对销售收入有显著影响;列因素(营销方法)的p值=2.1E-07<α=0.05,所以拒绝原假设H0,即营销方法对销售收入有显著影响;得到的结论与F检验的结论相一致。
3)关系强度的测量
例7.2的方差分析结构表明,不同营销方法之间的销售收入均值之间有显著差异,即营销方法(列自变量)与销售收入(因变量)之间的关系是显著的;而不同地区之间的销售收入的均值之间没有显著差异,即地区(行自变量)与销售收入(因变量)之间的关系是不显著的。那么,销售收入的变化中有多少变化是由地区和营销方法决定的呢?销售收入和这两个因素的关系强度又是强还是弱呢?
关于上述问题,同单因素方差分析中关系强度的衡量一样,也可从误差平方和的分解入手,方差分析表中给出了总误差平方和、行自变量误差平方和、列自变量误差平方和和误差项平方和。很明显,可用行平方和(行SS)度量了地区这个自变量对因变量(销售收入)的影响效应;用列平方和(列SS)度量了营销方法这个自变量对因变量(销售收入)的影响效应;那么,这两个平方和加在一起则度量了两个自变量对因变量的联合效应。联合效应与总平方和的比值定义为R2,其平方根R则反映了这两个自变量合起来与因变量之间的关系强度。
例7.2中
这表明,地区因素和营销方法因素合起来总共解释了销售收入的95.70%,其他因素(残差变量)只解释了销售收入差异的4.30%。平方根R=0.9783,表明地区和营销方法两个因素合起来与销售收入之间有非常强的关系。
当然,也可分别考察地区与营销方法与销售收入之间的关系,这就需要分别做每个自变量与销售收入的单因素方差分析,并分别计算每个R2进行分析。下面给出分别对地区和营销方法因素对销售收入的单因素方差分析结果,见表7.11和表7.12。请大家自己进行分析。
表7.11 地区与销售收入的单因素方差分析结果
表7.12 营销收入与销售收入的单因素方差分析结果(www.xing528.com)
从表7.11和表7.12可以发现,与双因素方差分析所得到的结论一致。但双因素方差分析中的误差平方和等于22197.2,比分别做单因素方差分析时的任何一个平方和(482550和55720.833)都小,而且p值也变得更小了。这是因为在双因素方差分析中,误差项平方和不包括两个自变量中的任何一个,因而减少了残差效应。而在分别做单因素方差分析时,将行因素(地区)做自变量时,列因素(营销方法)被包括在残差中。同样,将列因素(营销方法)作自变量时,行因素(地区)被包括在残差中。因此,对两个独立的自变量而言,进行无交互作用的双因素方差分析要优于分别对两个因素进行单因素方差分析。
【学习指导与小结】
本章在介绍方差分析原理和思想的基础上,重点介绍了如何进行单因素和无交互作用的双因素方差分析步骤。本章各节的主要内容和学习要点见表7.13。
表7.13 本章各节的主要内容和学习要点
注:“加粗”部分为重点学习要点,应当重点学习并掌握。
【常用术语】
方差分析 随机误差 系统误差 总误差平方和 组间平方和 组内平方和 双因素方差分析
【案例讨论】
方差分析在市场营销中的应用:测试营销[3]
某苹果汁厂家开发了一种新产品——浓缩苹果汁,一包该果汁与水混合后可配出1L的普通苹果汁。该产品有一些吸引消费者的特性:首先,它比目前市场销售的罐装苹果汁方便。其次,由于市场上的罐装苹果汁事实上也是通过浓缩果汁制造而成,因此,新产品的质量至少不会差于罐装果汁。再次,新产品的生产成本要略低于罐装苹果汁。营销经理需要决定的是如何宣传这种新产品,她可通过强调产品的便利性、高品质或价格优势的广告来推销。为了决定采用何种广告策略,她分别在3个小城市展开试验。在第一个城市推出她的产品时,她将广告的重点放在宣传浓缩果汁的便利性(如很方便就可以从商店搬回家,占用更少的冰箱空间等)。在第二个城市,她则大力宣传产品的质量(画面上“普通的”购买者正在讨论果汁的口味如何纯正)。接下来在第三个城市,广告则聚焦在产品的另一亮点——相对较低的成本。相关人员记录了营销战略开始后20个星期果汁的每周销量,据此,营销经理希望了解3种不同广告策略下的销售状况是否存在差异。
【讨论】
1.什么是方差分析?结合此案例说明此方差分析的目的。
2.如果算出检验统计量的值F=3.23,p值为0.0468,那么,我们可以作出什么判断?
【思考与练习】
一、思考题
1.什么是方差分析?其目的是什么?
2.方差分析包括哪些类型?这些类型之间的区别和联系是什么?
3.方差分析的基本思想是什么?
4.请解释总误差平方和、水平项误差平方和和误差项平方和三者之间的关系。
5.简述方差分析的基本步骤。
6.简述无重复作用的双因素方差分析的区别和联系。
7.测度方差分析中自变量和因变量之间关系强度的指标是什么?请简述其含义。
二、练习题
1.从3个总体中各抽取样本量不同的样本数据,结果见表7.14。检验3个总体的均值之间是否有显著差异(α=0.01)。
表7.14 样本数据结果
2.一家牛奶公司有4台机器装填牛奶,每桶的容量为4L。表7.15是从4台机器中抽取的样本数据。取显著性水平α=0.01,检验4台机器的装填量是否相同。
表7.15 样本数据
3.某企业准备用4种方法组装一种新的产品,为确定哪种方法每小时生产的产品数量最多,随机抽取了32名工人,并指定每个人使用其中的一种方法。通过对每个工人生产的产品数进行方差分析得到表7.16的结果。
表7.16 方差分析表
(1)完成上面的方差分析表。
(2)若显著性水平α=0.05,检验3种方法组装的产品数量之间是否有显著差异?
4.一家汽车制造商准备购进一批轮胎。考虑的因素主要有轮胎供应商和耐磨程度。为了对磨损程度进行测试,分别在低速(40km/h)、中速(80km/h)、高速(120km/h)下进行测试。表7.17是对5家供应商抽取的轮胎随机样本在轮胎使用1000km后磨损程度。取显著性水平α=0.01,检验:
(1)不同车速对磨损程度是否有显著影响。
(2)不同供应商生产的轮胎之间磨损程度是否有显著差异。
表7.17 随机样本数据
5.有5种不同品种的种子和4种不同的施肥方案,在20块同样面积的土地上,分别采用5种种子和4种施肥方案搭配进行试验,取得的收获量数据见表7.18。检验种子的不同品种对收获量的影响是否有显著差异;不同的施肥方案对收获量的影响是否有显著差异(α=0.05)。
表7.18 收获量数据
6.为研究食品的包装和销售地区对其销售量是否有影响,在某周的3个不同地区中用3种不同包装方法进行销售,获得的销售量数据见表7.19。检验不同的地区和不同的包装方法对该食品的销售量是否有显著影响(α=0.05)。
表7.19 销售量数据
【注释】
[1]贾俊平.统计学[M].2版.北京:清华大学出版社,2006:306⁃307.
[2]判断双因素是有交互还是无交互作用,需要针对两因素的数据响应值来结合图形描述进行分析,因内容比较复杂,本书不予介绍,感兴趣的读者可参考相关统计书籍。
[3]凯勒,沃拉克.统计学:在经济和管理中的应用[M].王琪延,郝志敏,廉晓红,等,译.6版.北京:中国人民大学出版社,2006.
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。