第七章 相关分析与回归分析
客观现象总是普遍联系和相互依存的,分析认识变量之间的依存关系是统计学研究的重要内容之一。本章讨论的相关与回归分析是现代统计学中非常重要的内容,它在自然科学、管理科学和社会经济领域有着十分广泛的应用。主要内容是:测度数值型变量之间关系紧密程度的相关系数及其检验,揭示变量间依存关系的回归方程的建立及其显著性检验。
第一节 相关分析概述
本节的主要内容包括相关分析的概念、相关分析的类型及相关分析的内容。
一、相关分析的概念
无论是在自然界还是在社会经济领域,一种现象与另一种现象之间往往存在着依存关系,当我们用变量来反映这些现象的特征时,便表现为变量之间的依存关系。如某种商品的销售额(y)与销售量(x)之间的关系、商品销售额(y)与广告费支出(x)之间的关系以及粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系等。统计学的主要研究对象是随机变量,在有多个变量时,至少有一个变量是随机变量,因此我们对变量之间关系的分析是随机变量之间的关系或随机变量与确定变量之间的关系。
变量之间的依存关系可以分为两种:一种是函数关系,指变量之间保持的严格的、确定的关系。如圆的面积(S)与半径(r)之间的关系可表示为S=πr2,当圆的半径r的值取定后,其圆的面积也随之确定。另一种是相关关系,指变量之间客观上存在的不确定的依存关系。即变量间关系不能用函数关系精确表达,一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个或无穷多个。例如,人的身高与体重这两个变量,一般而言是相互依存的,但它们并不表现为确定的函数关系。因为制约这两个变量的还有其他因素,如遗传因素、营养状况和运动水平等,以至于同一身高的人可以有不同的体重,同一体重的人又表现出不同的身高。变量间的这种不严格的依存关系就构成了相关分析的对象。
变量之间的函数关系和相关关系,在一定条件下是可以互相转化的。本来具有函数关系的变量,当存在观测误差时,其函数关系往往以相关的形式表现出来。而具有相关关系的变量之间的联系,如果我们对它们有了深刻的规律性认识,并且能够把影响因变量变动的因素全部纳入方程,这时的相关关系也可能转化为函数关系。另外,相关关系也具有某种变动规律性,所以,相关关系经常可以用一定的函数形式去近似地描述。客观现象的函数关系可以用数学分析的方法去研究,而研究客观现象的相关关系必须借助于统计学中的相关与回归分析方法。
二、相关分析的类型
(1)按相关的程度可分为完全相关、不完全相关和不相关。当一种现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象间的关系为完全相关。例如,在价格不变的条件下,某种商品的销售总额与其销售量总是成正比例关系。在这种场合,相关关系便成为函数关系。因此,也可以说函数关系是相关关系的一个特例。当两个现象彼此互不影响,其数量变化各自独立时,称为不相关现象。例如,通常认为股票价格的高低与气温的高低是不相关的。两个现象之间的关系介于完全相关和不相关之间,称为不完全相关,一般的相关现象都是指这种不完全相关。
(2)按相关的方向可分为正相关和负相关。当一个现象的数量增加(或减少),另一个现象的数量也随之增加(或减少)时,称为正相关。例如,消费水平随收入的增加而提高就是正相关系。当一个现象的数量增加(或减少),另一个现象的数量向相反方向变动时,称为负相关。例如,商品流转的规模愈大,流通费用水平则愈低。
(3)按相关的形式可分为线性相关和非线性相关。当两种相关现象之间的关系大致呈现为线性关系时,称之为线性相关。例如,人均消费水平与人均收入水平通常成线性关系。如果两种相关现象之间,并不表现为直线的关系,而是近似于某种曲线方程的关系,则这种相关关系称为非线性相关。例如,产品的平均成本与产品总产量就是一种非线性相关。
(4)按所研究的变量多少可分为单相关、复相关和偏相关。两个变量之间的相关,称为单相关。当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。例如,某种商品的需求与其价格水平以及收入水平之间的相关关系便是一种复相关。在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。例如,在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关。相关关系分类型如图7-1所示。
三、相关分析的内容
相关分析的目的就是要在错综复杂的客观现象中,通过大量观察的统计资料,探讨现象之间相互依存关系的形式和相关的密切程度,并找出合适的表达形式,为推算未知和预测未来提供数据,具体内容有以下几方面:
1.揭示现象之间是否具有相关关系
要从两个方面加以判断:一方面要对现象之间的联系开展理论研究,按照经济理论、专业知识和实践经验,进行定性分析和判断;另一方面要对大量的实际统计资料,通过编制相关表、绘制相关图等一系列统计分析方法,对被研究的现象变量之间是否真正存在相关关系做出统计判断。
图7-1 相关关系类型示意图
2.测定现象相关关系的密切程度
相关关系是一种不严格的数量关系,统计分析的任务之一就是要确定这种数量关系的密切程度,通常是计算相关系数以反映相关关系的密切程度。
3.对相关系数进行检验
在实际的客观现象分析研究中,相关系数一般都是利用样本数据计算的,因而带有一定的随机性,样本容量越小,其可信程度就越差。因此根据一定的样本数据计算得到样本相关系数之后需要进行显著性检验。
第二节 相关分析的方法
相关分析是确定变量之间是否存在相关关系以及如何描述这种关系的强度。主要分析方法有相关表、相关图及相关系数。其中相关表及相关图分析法也称为定性分析法,相关系数也称为定量分析法。
一、相关表
相关表是一种反映变量之间相关关系的统计表。将某一变量按其取值的大小排列,然后将与其相关的另一变量的对应值平等排列,便可得到简单的相关表。表7-1就是某公司A产品广告费与销售收入所形成的相关表。
表7-1中资料表明,销售收入随着广告费的增加而增长,二者之间存在着较明显的正依存关系。
表7-1 某公司A产品广告费与销售收入相关表
根据对自变量是否分组,相关表分为简单相关表和分组相关表两种。表7-1即为简单相关表。分组相关表是将原始数据进行分组编制而成的相关表。分组相关表又分为单变量分组相关表和双变量分组相关表。单变量分组相关表是将两个变量中的一个变量进行分组,而另一个变量不分组,并对分组的变量计算各组的次数,而不分组的变量则计算平均数。以表7-1的统计资料可编制表7-2所示的单变量分组相关表。
表7-2 某公司A产品广告费与销售收入单变量分组相关表
表7-2将年广告费进行分组,并计算相同年广告费出现的次数。年销售收入不分组,但要计算各组年销售收入的平均数。从表7-2可以看出,随着年广告费的增加年销售收入的平均数也增加,二者之间具有线性相关关系。
双变量分组相关表是对两个变量都加以分组形成的相关表。以表7-1资料可编制表7-3所示的双变量分组相关表。
在编制双变量分组相关表时,自变量和因变量的数值都进行分组。将自变量各组标志值放在各行,其排列顺序由大到小;将因变量各组标志值放在各列,其排列顺序由小到大。
表7-3 某公司A产品广告费与销售收入双变量分组相关表
二、相关图
借助统计图反映现象间的相关关系,具有简明直观的特点,它不仅能反映现象之间的关系及其相关程度,而且还能一目了然地揭示相关关系的方向和相关关系的模式。将两个变量X,Y成对的资料,在平面直角坐标系中描绘出来,所得到的散点图,称为统计相关图。用相关图来反映变量X,Y之间的相关关系,称为相关分析的统计图示法。
相关图的绘制方法如下:
第一步,先作一个平面直角坐标系。
第二步,确定变量间的因果关系。
第三步,以水平轴表示自变量,用纵轴表示因变量。
第四步,把自变量X和因变量Y成对的数据作为坐标系中的每一个点,分别描绘出来就得到相关图。
第五步,为清晰起见,有时还要求用一条直线或曲线,近似描绘出点的分布轨迹。
依据表7-1的统计资料,绘制相关散点图如图7-2所示。
图7-2 相关散点图
图7-2中的横轴表示广告费用x,纵轴表示销售收入y,两变量值的坐标点显示两个变量的相关关系,从该图可以看出,x与y之间的相关关系近似于一条直线,它们属于线性正相关。
在相关图中,若相关点呈现出一定的规律性,如大致为一条直线或一条曲线,就表明现象之间存在相关关系,且为直线相关或曲线相关。若相关点分布没有规律,表明现象之间没有相关关系或存在低度相关关系。
从以上分析可以看出,用相关表和相关图均能粗略观察出现象之间相关关系。相关图与相关表相比较,都能用来观察相关的形态,但相关图应以相关表提供的资料为依据。
三、相关系数
1.相关系数的概念及计算
相关系数是在线性相关条件下反映两个变量之间相关方向和密切程度的统计指标。其计算可以根据总体资料计算也可以根据样本资料计算。根据总体资料计算的相关系数,称为总体相关系数,用ρ表示。由样本资料计算的相关系数,称为样本相关系数,用r表示。由于总体资料很难取得,所以大多条件下我们只计算样本相关系数,因而本节只介绍样本相关系数的计算。设(x1,y1),(x2,y2),…,(xn,yn)为变量x与y的观察样本,珋x与珋y分别为X、Y的样本均值,则样本相关系数的计算公式是
上述公式是由K.皮尔逊提出来的,故有时又叫作皮尔逊相关系数。
直接按式(7-1)来计算相关系数往往比较麻烦,如果珋x,珋y除不尽作四舍五入处理,还容易造成较大的计算误差。所以一般可将式(7-1)进一步变换成式(7-2),式(7-2)也可以看成是相关系数的简捷计算公式为
【例7-1】试根据表7-1中的资料,计算A产品年广告费用与年销售收入的相关系数。
解
表7-4 简捷法相关系数计算表
2.对相关系数的理解
为了充分认识和运用相关系数r,对其性质做如下总结:
(1)相关系数r的取值范围在-1和+ 1之间,即-1≤r≤1。
(2)若r为正,则两变量呈正线性相关;若r为负,则两变量呈负线性相关。
(3)如果| r|= 1,则表示两个变量完全线性相关,即为函数关系。如果r= 0,则表示两个变量没有线性关系。应该注意:r= 0只能说明两个变量没有线性关系,不能说明两个变量没有关系,因为它们之间有可能存在曲线相关关系。
(4)相关系数r的绝对值越接近于1,表示相关程度越强;越接近于0,表示相关程度越弱。用相关系数判断两变量线性相关关系密切程度的具体标准为
0≤| r|<0.3,称为微弱相关;
0.3≤| r|<0.5,称为低度相关;
0.5≤| r|<0.8,称为显著相关;
0.8≤| r|<1,称为高度相关。
必须指出,以上关于相关系数的性质和判断变量关系密切程度的标准必须建立在对相关系数的显著性检验基础之上。
3.相关系数的显著性检验
一般情况下,总体相关系数ρ是未知的,通常根据样本相关系数r来近似估计ρ。由于r是根据样本计算得到的,它受到抽样误差的影响,因此对于不同的样本,计算出的r也不同,因此r是一个随机变量。能否根据样本的相关系数说明总体的相关程度。这就需要考察r的可靠程度,也就是要对r进行显著性检验。
r显著性检验的具体步骤如下:
第一步,提出假设:假设样本是从一个不相关的总体中抽样的,即
H0:ρ= 0;H1:ρ≠0
第二步,计算检验的统计量:
第三步,进行统计决策。根据给定的显著性水平α和自由度df= n-2,查t分布表,得到临界值 (n-2)。若| t|>,则拒绝原假设H0,表明总体的两个变量之间存在显著的线性关系。
【例7-2】以5%的显著性水平,检验A产品年广告费用与年销售收入之间的相关系数是否显著。
第一步,提出假设:假设样本是从一个不相关的总体中抽样的,即
H0:ρ= 0;H1:ρ≠0
第二步,计算检验的统计量。将表7-4的数据代入t检验统计量公式,得
第三步,进行决策。根据给定的显著性水平α= 0.05和自由度df= 10-2= 8,查t分布表,得到 (10-2)= 2.306。由于t= 9.128 6>= 2.306,所以拒绝原假设H0,表明A产品年广告费用与年销售收入之间存在显著的正线性相关关系。
第三节 回归分析概述
回归这个统计术语,最早采用者是英国遗传学家高尔登,他把这种统计分析方法应用于研究生物学的遗传问题,指出生物后代有回复或回归到其上代原有特性的倾向。高尔登的学生皮尔逊继续研究,把回归的概念和数学方法联系起来,把代表现象之间一般数量关系的直线或曲线称为回归直线或回归曲线。
一、回归分析的概念
所谓回归分析,就是根据相关关系的具体形态,选择一个合适的数学模型来近似地表达变量间的平均变化关系。
二、回归分析与相关分析的区别与联系
相关分析要讨论的内容是:判断现象之间是否存在相关关系。如果存在相关关系,则要进一步判断相关关系的种类和关系的紧密程度。关系的紧密程度是用相关系数来刻划的,但往往我们是用样本数据计算相关系数,这种相关系数是否能真实地反映总体的相关程度,还必须进行显著性检验。
回归分析要研究的内容是:在相关分析的基础上,建立反映变量间依存关系的数学模型,即回归方程;对回归方程进行显著性检验。由于我们是在定性判断的基础上选择的回归模型,并且是根据样本资料建立的回归方程,可能定性判断不恰当,可能样本数据的随机性影响回归方程的真实性和可靠性,因此必须对回归方程进行显著性检验。
应当指出相关分析与回归分析之间在研究目的和方法上是有明显区别的:
(1)分析的内容不同。相关分析的主要研究内容是现象之间有无相关关系及关系的紧密程度,而回归分析主要研究现象之间数量关系的依存形式,即建立回归方程,并用方程对现象进行预测。
(2)变量的地位不同。进行相关分析时,两个变量的地位是平等的,不必区分自变量和因变量;而回归分析则一定要明确哪个是自变量,哪个是因变量。
(3)变量的性质不同。相关分析中的所有变量均为随机变量,而回归分析中的因变量为随机变量,自变量可以为确定性变量。
相关分析和回归分析之间的联系表现为,它们的研究对象相同,都是对具有相关关系的现象进行分析研究,而且在应用时常常相互补充。相关分析需要回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象间数量变化的相关程度,只有在变量间存在较高的相关关系时,进行回归分析才有意义。
三、回归分析的类型
回归分析研究两个及两个以上的变量时,根据变量的地位、作用不同分为自变量和因变量。一般把作为估测根据的变量叫作自变量,把待估测的变量叫作因变量。反映自变量和因变量之间联系的数学表达式叫作回归方程,某一类回归方程的总称为回归模型。在回归分析中根据研究的变量多少,可以分为一元回归和多元回归。若只有一个自变量和一个因变量的回归称为一元回归或简单回归。若自变量的数目在两个或两个以上,因变量只有一个,则称为多元回归。若拟合的是直线方程则为线性回归分析,拟合的是曲线方程则为非线性回归分析。
四、回归模型的建立
回归模型的建立过程,需要经历以下几个步骤:
(1)在定性和定量分析的基础上,确定变量以及它们之间的相关关系。定性分析是指,根据相关学科的理论、专业知识和经验,对现象与现象之间的内在联系所做的研究。定量分析是指,依据大量的统计数据,对现象之间客观存在的数量关系和数量表现规律,进行反映和发现。现象之间的联系,往往是比较复杂的,那么通过定性和定量研究,能够帮助人们对问题有个深入的了解和掌握,以便建立合适的数学模型。
(2)建立回归分析模型。利用模型进行研究,是许多学科中经常用到的方法,模型是对客观现象的本质特征及其变化规律的一种描述、模仿或抽象。模型的种类很多,回归分析模型属于数学模型,而且是一个随机数学模型,形式上表现为函数方程式,结构上由变量和参数组成。建立回归模型,需要处理好两个方面的问题,一是模型描述的逼真性,二是模型描述的简洁性。追求模型的逼真性,势必要引进许多变量,这将导致模型的复杂化和表述上的困难。如果追求模型的简洁性,虽然有利于求解,但由此会造成模型逼真度的降低。一个好的回归分析模型,需要将二者兼顾起来。
(3)参数的求解。对模型中的参数求解,是模型进一步具体化的过程。对于同类性质的问题,都可以用一个一般的回归方程来描述,只有在根据特定问题的资料,求出模型的参数之后,该模型才适用于这个问题的研究。回归分析中,模型求解常用的方法包括最小二乘估计、极大似然估计等。
(4)回归模型的显著性检验。回归模型初步确立后,在利用它进行估计、预测和控制之前,还需要对它的代表性强弱程度做出分析。解释变量发生疏漏,解释变量与解释变量的相关关系不明显,实际中的解释变量与解释变量的关系形式与提出的模型存在较大的差异等,如果这些情况发生了,回归模型的代表性就会变得不理想,那么用这样的模型进行估计、预测和控制,效果肯定不会太好。回归模型的显著性检验,主要是对回归模型中的参数以及模型的相关关系进行显著性推断。
(5)回归模型的修正和改进。如果回归模型没有通过显著性检验,说明拟定的模型存在着问题,因而要重新回过头来,查找原因并进行妥善的修改,直至能确立较为满意或最优的回归模型为止。建立回归分析模型,不是最终的目的,关键是利用已建立起来的模型达到估计、预测和控制的目的。
第四节 一元线性回归分析
一元线性回归是描述两个变量之间相互联系的最简单的回归模型。一元线性回归虽然简单,但通过一元线性回归模型的建立过程,我们可以了解回归分析方法的基本统计思想以及它在经济问题研究中的应用原理。本节将详细讨论一元线性回归的建模思想,最小二乘估计及其性质,回归方程的有关检验、预测。
一、一元线性回归模型与回归方程
这里我们只讨论一元线性回归,即只有一个自变量,且因变量与自变量之间为线性相关关系。
对于具有线性关系的变量x,y,可以用一个线性方程即一元线性模型来刻划它们之间的关系。一元线性模型为
在这个模型中,线性主部(β0+β1 x)反映了由x变化而引起的y的线性变化;随机项ε反映了除此之外由随机因素造成的对y的影响。
1.回归分析的经典假设
(1)自变量x是确定性变量,不是随机变量。
(3)随机误差项在不同样本点之间是独立的,不存在序列相关:
(4)随机误差与对应的自变量之间不相关:
以上这些基本假定是由德国数学家高斯最早提出的,也称为高斯经典假设。满足以上标准假定的一元线性回归模型称为标准的一元线性回归模型。
2.样本回归方程
在经济实践中,我们总是希望根据总体资料进行回归分析,这就需要建立总体回归方程,但由于总体回归方程的建立需要收集总体资料,而总体资料往往难以取得,所以,只能根据样本资料建立样本回归方程,在上述经典假设的条件下,样本回归方程的一般形式是:
式中,^β0是该直线的截距,也就是当x取0时^y的期望值;^β1是直线的斜率,它表示当x每变动一个单位,^y的平均变化,通常^β1称为回归系数。
二、参数的最小二乘法
若能算出统计量^β0和^β1,样本回归方程就确定了。如何求取^β0和^β1,常用的是最小二乘法。给定的一组样本观测值,要求样本回归方程尽可能好地拟合这组值,就是要求代表真实值的散点到样本回归直线的距离之和最小,即因变量的真值y与回归直线上的估计值^y之差的平方和最小:
当样本观测值已知时,上式是关于^β0和^β1的二元函数。对于多元函数最小值的求解,运用多元微积分中的极值定理,由于Q(^β0,^β1)是关于^β0和^β1的非负二次函数,因而它的最小值总是存在的。根据微积分中求极值的原理,让Q(^β0,^β1)分别对^β0和^β1求偏导,且令这两个偏导等于0,得
求解正规方程组,得
【例7-3】应用表7-4的资料建立一元线性回归模型。
解 设年广告费为自变量x,年销售收入为因变量y,则有
表7-5 一元线性回归方程计算表
依据表7-5数据可得:
从而求得一元线性回归方程为
方程中^β0= 48.2141为初始水平,^β1= 1.1429为回归系数。方程表明年广告费每增加1万元,年销售收入将会增加1.142 9万元。
三、一元线性回归方程的拟合优度
回归方程 在一定程度上描述了变量y和x之间的数量关系,由此可根据自变量x的取值来估计或预测因变量y的取值。但估计或预测的精度将取决于回归直线对观测数据的拟合程度。如果各观测数据的散点围绕回归直线越紧密,说明回归直线对观测数据的拟合程度越好,反之越差。我们把回归直线和各观测点的接近程度称为回归直线对数据的拟合优度。为了量化拟合优度,需要计算判定系数。为了说明判定系数的含义,我们需要对因变量的变差进行分解。
图7-3 变差分解图
1.因变量变差的分解
因变量y的取值是有差异的,y取值的这种不同称为变差。变差的产生来源于两个方面:一是由于自变量x的不同取值造成;二是除x以外的其他因素(例如测量误差等)的影响。对一个具体的观测值来说,变差的大小可以用实际观测值y与因变量的均值珋y之差(y-珋y)来表示,如图7-3所示。
从图7-3可以看出,每个观测点的变差都可以分解为两部分,即
将等式两边平方,并对所有点求和,有
可以证明,因此有
式子左边的称为总平方和,记作SST。它可分解为两部分,其中是回归值^y与均值珋y的离差平方和,根据样本回归方程,估计值,因此可以把(^y-珋y)看作由于自变量x的变化引起的y的变化;而其平方和反映了y的总离差中由于x与y线性关系引起的y的变化部分,它是可以由回归直线来解释的y离差部分,称为回归平方和,记做SSR。另一部分是各观测值与回归值的剩余误差的平方和,它是除了x对y的线性影响之外的其他因素对y离差的作用,称为残差平方和,记为SSE。这3个平方和的关系为:
总平方和=回归平方和+残差平方和
即
这是总变差的绝对数表达关系,其相对数表达为
2.判定系数
回归直线拟合的好坏取决于回归平方和SSR和残差平方和SSE的大小,或SSR和SSE在总平方和SST中所占比重的大小。对于确定的样本,总平方和SST是常数,则回归平方和SSR和残差平方和SSE是此消彼长的关系。我们以回归平方和SSR在总平方和SST中所占比重这个相对指标作为判定回归直线拟合好坏的指标,并将这一指标定义为判定系数,或称为可决系数,记做R2。
若所有观测点都落在回归线上,残差平方和SSE= 0,则R2= 1,即是完全拟合;若y的变化与x无关,x与y的离差完全没有关系,那么此时^y=珋y,且R2= 0。可见R2的取值范围是[0,1]。R2越接近1,表明回归平方和占总平方和的比重越大,回归直线与各观测值越接近,用x的变化解释y值离差的部分就越多,回归直线的拟合效果就越好;反之,R2越接近0,回归直线的拟合程度就越差。
可以证明:在一元线性回归时,判定系数R2就是相关系数r的平方(多元线性回归不具有这一规律)。这一结论不仅可以使我们能从相关系数直接计算判定系数,还可以使我们进一步理解相关系数的意义。相关系数r与回归系数^β1具有相同的正负号,实际上,相关系数r也从另一个角度说明了回归直线的拟合优度。
【例7-4】应用表7-1的资料计算A产品年广告费用与年销售收入回归方程的判定系数,并解释其意义。
解 判定系数:
判定系数的实际意义是:在年销售收入中,有91.25%可以由广告费用与年销售收入之间的线性关系来解释。或者说,在年销售收入的变动中,有91.25%是由广告费用的变动引起的,说明广告费用与年销售收入的回归方程的拟合优度很高。
3.估计标准误差
回归直线的拟合优度是由SSR在总平方和SST中的比重(判定系数)来度量的。而残差平方和SSE可以说明样本观察值yi与回归估计值^y之间的差异程度,从另一个角度说明回归直线的拟合优度。
将残差平方和SSE除以其自由度n-2,可以得到残差均方,记为MSE。MSE的平方根称为估计标准误差,记为Sy。
Sy为估计标准误差。在对因变量y进行预测估计时,它反映了用样本回归方程预测y值的误差大小。若样本观察值与回归直线距离越近,则Sy越小,回归直线的代表性越好,运用回归方程做预测就越准确。
四、回归模型的显著性检验
回归模型显著性检验主要检验两个方面的内容,一是线性关系的检验,二是回归系数的检验。显著性检验不仅说明我们建立的回归模型是否真实地反映了两个变量之间的关系,也关系到对因变量做预测的准确程度。
1.线性关系的检验
线性关系的检验就是要检验两个变量之间用线性模型y=β0+β1 x+ε表示是否合适。
线性关系检验的具体步骤如下:
(1)提出假设:
H0:β1= 0;H1:β1≠0
(2)计算检验统计量F:
(3)做出决策。确定显著性水平α,并根据分子自由度df1= 1和分母自由度df2= n-2,查F分布表,得到临界值Fα。若F>Fα,拒绝H0,表明两个变量之间的线性关系是显著的;若F<Fα,不拒绝H0,即没有证据表明两个变量之间的线性关系显著。
【例7-5】检验A产品年广告费用与年销售收入一元线性回归模型线性关系的显著性。(α= 0.05)
1)提出假设:
H0:β1= 0;H1:β1≠0
2)计算检验统计量F:
3)做出决策。根据显著性水平α= 0.05,分子自由度df1= 1和分母自由度df2= n-2 = 8,查F分布表,得到临界值Fα= 5.32。由于F>Fα,故拒绝H0,表明A产品广告费用与年销售收入之间的线性关系是显著的。
2.回归系数的检验
回归系数的显著性检验是要检验自变量对因变量的影响是否显著。
回归系数显著性检验的步骤是:
(1)提出假设:
H0:β1= 0;H1:β1≠0
(2)计算检验统计量t:
式中是^β1的估计标准差,且
(3)做出决策。根据显著性水平α和自由度df= n-2,查t分布表,找到相应的临界值,若| t|>,拒绝原假设H0,表明自变量x对因变量y的线性影响是显著的,即存在线性关系;如果| t|<,则不拒绝原假设H0,即没有证据表明自变量x对因变量y的影响是显著的。
下面用例子来说明具体的检验过程。
【例7-6】检验A产品年广告费用与年销售收入回归方程中回归系数β1的显著性。(α = 0.05)
1)提出假设
H0:β1= 0;H1:β1≠0
2)计算检验统计量t:
3)做出决策。根据显著性水平α= 0.05和自由度df= 10-2= 8,查t分布表,得到临界值= 2.306 0。由于t= 9.128 6>t0.025= 2.306 0,故拒绝原假设H0。表明销售收入的变化很大程度上依赖广告费用支出。
五、利用一元线性回归方程预测
回归分析的主要目的是根据所建立的估计的回归方程进行预测或控制。在回归分析通过各种检验之后,我们就可以用它来完成这一目的了。所谓预测,就是根据自变量x的取值来预测因变量y的取值,比如,根据现金收入与现金支出的回归方程,给出一个具体的现金数值,就可以预测现金支出的具体数值。用回归方程预测的方法有点预测方法和区间预测方法。
所谓回归分析的预测区间是指对于给定的x值,求出y的平均值的置信区间或y的一个个别值的预测区间。例如:平均值预测指对于所有年收入= 3万的居民,其平均消费等于多少?个别值预测指张三的年收入= 3万,其消费多少?
均值和个值预测的点估计值相同若自变量给定,要预测因变量时,先将x= x0代入式(7-8),得是对应于x0的点估计值,但我们往往更希望能给出因变量的一个预测值范围。
1.y的平均值E(y0)的1-α置信区间估计
2.y的个别值y0的1-α置信区间估计
归纳两个预测区间的特点:首先从式(7-19)和式(7-20)看出,故总体均值的预测区间比个别值的预测区间要窄;其次样本容量n越大,则残差的方差越小,预测精度越高;最后在n一定时,当预测点x0=时,残差的方差最小,预测区间最窄,离越远,残差的方差越大,预测区间越宽,预测可信度下降。
【例7-7】根据例7-1的资料,若2015年A产品广告费为8万元,求置信度为95%的年销售收入预测区间。
解 将x0= 8代入回归方程,得= 48.214 1+ 1.142 9×8= 51.357 3(万元),查表,得tα/2(8)= 2.306。代入式(7-20),从而有
所以置信区间是[55.373 6,59.341]万元。
第五节 多元线性回归分析
一元线性回归分析所反映的是一个自变量与一个因变量之间的关系。但在现实生活中,某一现象的变化通常是受多项因素变动影响的。例如,企业的年销售额要受销售数量、销售单价、市场供求状况、广告投入等多种因素的影响。对这种预测对象受多个因素影响的社会经济现象就需要采用多元线性回归分析来解释变量之间的关系。多元线性回归分析是利用回归分析的原理,寻找因变量与多个自变量之间的变化规律,以建立回归模型,并利用所建立的回归模型进行预测。多元回归分析可分为线性和非线性两种。本节将重点介绍多元线性回归模型及其基本假设、回归模型未知参数的估计及其性质、回归方程及回归系数的显著性检验等。
一、多元线性回归模型与方程
多元线性回归(multiple liner regression)模型的一般形式为
式中,β0,β1,…,βp是p+ 1个未知参数,称为回归系数。y称为被解释变量(因变量),而x1,x2,…,xp是p个可以精确测量并可控制的一般变量,称为解释变量(自变量)。p= 1时,式(7-24)即为上一节分析的一元线性回归模型;p≥2时,我们就称式(7-21)为多元线性回归模型,这里ε是随机误差。与一元线性回归模型一样,对随机误差项我们常假定其期望值为零、方差为σ2的正态分布N(0,σ2)。
对一个实际问题,如果我们获得n组观测数据(xi1,xi2,…,xip;yi),i= 1,2,…,n,把这些观测值代入式(7-21)可得样本(形式的)多元线性回归模型:
写成矩阵形式为:
其中,Y=
与一元线性回归类似,对多元线性回归模型做出如下假定:
(1)εi(i= 1,2,…,n)服从正态分布。E(εi)= 0,i= 1,2,…,n;方差为σ2。
(2)自变量x1,x2,…,xp是确定性变量,不是随机变量,且要求矩阵x中的自变量列之间不相关。
(3)Cov(εi,εj)= 0,i≠j,i,j= 1,2,…,n。
(4)Cov(εi,xj1)= Cov(εi,xj2)=…= Cov(εi,xjk)= 0,i,j= 1,2…,n。
Y服从n维正态分布
根据回归模型的假定,有
式(7-24)称为多元回归方程,它描述了因变量y的期望值与自变量x1,x2,…,xp之间的关系。
2.多元线性回归方程的参数估计
对于式(7-21),假定参数β0,β1,…,βk已分别估计出来了,估计量分别记为,…,,则yi便可表示为
式中,为εi的估计或残差。
由最小二乘法原理:
用矩阵计算,表示为
(www.xing528.com)
式中。
对两边求关于^β的导数,并令其等于0,得
因此有
二、对多元线性回归方程的评价
1.拟合优度检验
在多元线性回归分析中,总离差平方和的分解公式依然成立:总偏差(SST)=回归偏差(SSR)+剩余偏差(SSE),我们可以用判定系数,来评价多元线性回归模型的拟合程度,即
由判定系数的定义可知,R2的大小取决于残差平方和SSE在总离差平方和SSE中的比重。在样本量一定的条件下,总离差平方和与自变量的个数无关,而残差平方和则会随着方程中自变量个数的增加而减小。因此R2是自变量个数的非递减函数。在一元线性回归方程中,由于所
有方程中包含的变量个数都相同,判定系数便可以直接作为评价一元线性回归方程拟合程度的尺度。而在多元线性回归方程中,各回归方程所包含的变量个数未必相同,因此,在多元线性回归分析中,通常采用“修正自由度判定系数”来判定现行多元回归方程的拟合优度:
式中,p是解释变量的个数,n为样本容量。可以看出:对于给定的R2值和n值,p值越大越小。在进行回归分析时,一般总是希望以尽可能少的自变量去达到尽可能高的拟合程度作为综合评价这方面情况的一个指标显然比R2更为合适。但要注意:当n为小样本,解释变量数很大时,为负。
同样,我们可以导出多元回归模型标准误差的计算公式:
式中,n-p-1是自由度,因为p元回归模型有p+ 1个参数,求解该回归方程时将失去p+ 1个自由度。后面在构建预测区间,时要用到这个指标。
2.多元线性回归模型的显著性检验
多元线性回归模型的显著性检验包括两个方面的内容:一是对整个回归方程的显著性检验(F检验),另一个是对各回归系数的显著性检验(t检验)。在一元线性回归方程的检验时,这两个检验是等价的,但在多元线性回归模型的检验时两者却不同。
(1)整个回归模型的显著性检验步骤:
第一步,提出假设:H0:β1=β2=…=βp= 0;H1:βi(i= 1,2,…,p)不全为0。
第二步,根据表7-6构建F统计量。
表7-6 多元线性回归模型的方差分析表
第三步,给定显著性水平α,查F分布表,得临界值Fα(p,n-p-1)。
第四步,若F≥Fα(p,n-p-1),则拒绝H0,接受备择假设,说明总体回归系数βi不全为零,即回归方程是显著的;反之,则认为回归方程不显著。
(2)回归系数的显著性检验步骤:
第一步,提出假设:H0:βi= 0;H1:βi≠0(i= 1,2,…,p)。
第二步,t检验的计算公式为:是回归系数标准差,cii是(XTX)-1中第i+ 1个主对角线元素。t值应该有p个,对每一个i= 1,…,p可以计算一个t值。
第三步,给定显著性水平α,确定临界值tα/2(n-p-1)。
第四步,若| tβi|≥tα/2(n-p-1),则拒绝H0,接受备择假设,即总体回归系数βi≠0。
有多少个回归系数,就要做多少次t检验。
类似于一元线性回归方程,通过检验后的多元线性模型也可以用来进行预测。
【例7-8】10个地区某种商品的需求量与其价格以及消费者收入的资料如表7-7所示,推算若价格在4 000元、消费者收入为1 700万元时,该商品的需求量。
表7-7 10个地区某种商品的需求量与相关资料
解 借助Excel中的回归分析工具,完成计算任务,分析结果见图7-4。
图7-4 二元线性回归分析结果
根据分析表所提供的数据显示,二元线性回归模型为y= 6 265.553 0-97.992 6x1+ 2.863 4x2= 0.873 6
F统计量为32.089 4,其对应的概率为0.000 3,即若α= 0.05,则拒绝H0,方程是有意义的。
tβ1=-3.054 1(对应概率为0.018 5); tβ2= 4.888 3(对应概率为0.0018),即若α= 0.05,两个t检验都是拒绝H0,也就是说,回归系数和是有意义的。
当x1= 40,x2= 170 0时,代入方程可得y= 7 213.629(吨)。
第六节 运用Excel进行相关与回归分析
一、用Excel进行相关分析
【例7-9】用表7-1某公司A产品广告费与销售收入相关表做相关分析。
首先将相关数据输入Excel的单元格中,如图7-5所示。
图7-5 A产品广告费与销售收入数据
操作步骤如下:
1)在“工具”菜单中,单击“数据分析”选项,弹出“数据分析”对话框,选择“相关系数”分析工具,如图7-6所示。
图7-6 “数据分析”对话框
2)单击“确定”,弹出“相关系数”对话框,在输入区域输入:$B$2∶$C$11,分组方式选择“逐列”,在输出区域中任选一单元格(如$A$ 14),如图7-7所示。
图7-7 “相关系数”对话框
3)单击“确定”,得到输出结果,如图7-8所示。
图7-8 相关分析输出结果
二、用Excel进行多元线性回归分析
【例7-10】用表7-7中10个地区某种商品的需求量与其价格以及消费者收入的相关资料,试建立回归模型。
解 首先将相关数据输入Excel单元格中,如图7-9所示。
图7-9 10个地区某种商品的需求量与其价格以及消费者收入的资料
操作步骤如下:
1)在“工具”菜单中单击“数据分析”选项,弹出“数据分析”对话框,选择“回归”分析工具,如图7-10所示。
图7-10 “数据分析”对话框
2)单击“确定”,弹出“回归”对话框,在Y值输入区域中输入:$ B$ 1∶$ B$ 11,在X值输入区域中输入:$ C$ 1∶$ D$ 11,选中“标志”复选框,置信度选择95%(默认值为95%,可以根据需要修改),在输出区域中任选一单元格(如$ A$ 17),如图7-11所示。
(3)单击“确定”,得到输出结果如图7-12所示。
Excel输出的回归分析结果包括以下3部分内容:
第一部分是“回归统计”。该部分给出了回归分析中的一些常用统计量,包括相关系数(Multiple R)、判定系数R2(R Square)、调整后的判定系数R2(Adjusted)、标准误差、观察值的个数等。
第二部分是“方差分析”。该部分给出了自由度(df)、回归平方和、残差平方和、总平方和、回归和残差的均方、检验统计量、F检验的显著性水平。
第三部分列出了模型中参数的估计值以及对这些估计值进行检验的数值,包括回归方程 的截距β0,斜率β1以及截距和斜率的标准误差、用于检验回归系数的t统计量、p值以及截距 和斜率的置信区间。
图7-11 “回归”对话框
图7-12 回归分析输出结果
y= 6 265.553 0-97.992 6x1+ 2.863 4x2
从方程检验来看,总体方程拟合优度较高,且通过了F检验,因此回归方程总体效果显著。从回归系数来看,两个自变量对应的回归系数对应的p值均显著小于0.05,表明这两个自变量对需求量均有显著影响。
思考与练习
一、判断题
1.不管相关关系表现形式如何,当| r|= 1时,变量X和变量Y都是完全相关。( )
2.不管相关关系表现形式如何,当| r|= 0时,变量X和变量Y都是完全不相关。( )
3.从分析层次上讲,相关分析更深刻一些。因为相关分析具有推理的性质,而回归分析从本质上讲只是对客观事物的一种描述,知其然而不知其所以然。( )
4.产品的单位成本随着产量增加而下降,这种现象属于函数关系。( )
5.圆的直径越大,其周长也越大,两者之间的关系属于正相关关系。( )
6.当抽取的样本不同时,对同一总体回归模型估计的结果也有所不同。( )
7.相关关系和函数关系都属于完全确定性的依存关系。( )
8.回归系数的符号与相关系数r的符号,可以相同也可以不相同。( )
9.相关的两个变量,只能算出一个相关系数。( )
10.一种回归直线只能作一种推算,不能反过来进行另一种推算。( )
二、单项选择题
1.两变量的线性相关系数为0,表明两变量之间( )。
A.完全相关
B.无关系
C.不完全相关
D.不存在线性相关
2.评价直线相关关系的密切程度,当r在0.5~0.8之间时,表示( )。
A.无相关
B.低度相关
C.显著相关
D.高度相关
3.相关分析和回归分析相辅相成,又各有特点,下面正确的描述有( )。
A.在相关分析中,相关的两变量都不是随机的
B.在回归分析中,自变量是随机的,因变量不是随机的
C.在回归分析中,因变量和自变量都是随机的
D.在相关分析中,相关的两变量都是随机的
4.关于相关系数,下面不正确的描述是( )。
A.当0≤|r|≤1时,表示两变量不完全相关
B.当r= 0时,表示两变量间无相关
C.两变量之间的相关关系是单相关
D.如果自变量增长引起因变量的相应增长,就形成正相关关系
5.欲以图形显示两变量X和Y的关系,最好创建( )。
A.直方图
B.圆形图
C.柱形图
D.散点图
6.一元线性回归模型和多元线性回归模型的区别在于只有一个( )。
A.因变量
B.自变量
C.相关系数
D.判定系数
7.在对两个变量x,y进行线性回归分析时,有下列步骤( ):
①对所求出的回归直线方程做出解释;②收集数据(xi,yi),i= 1,2,…,n;③求线性回归方程;④求未知参数;⑤根据所搜集的数据绘制散点图
如果根据可行性要求能够做出变量x,y具有线性相关结论,则在下列操作中正确的是( )。
A.①②⑤③④
B.③②④⑤①
C.②④③①⑤
D.②⑤④③①
8.已知直线回归方程为y= 2-1.5x,则变量x增加一个单位时( )。
A.y平均增加1.5个单位
B.y平均增加2个单位
C.y平均减少1.5个单位
D.y平均减少2个单位
9.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的判定系数R2如下,其中拟合效果最好的模型是( )。
A.模型1的判定系数R2为0.98
B.模型2的判定系数R2为0.80
C.模型3的判定系数R2为0.50
D.模型4的判定系数R2为0.25
三、多项选择题
1.简单线性回归分析的特点是( )。
A.两个变量之间不是对等关系
B.回归系数有正负号
C.两个变量都是随机的
D.利用一个回归方程,两个变量可以互相推算
E.有可能求出两个回归方程
2.判定系数R2= 80%和含义如下( )。
A.自变量和因变量之间的相关关系的密切程度
B.因变量y的总变化中有80%可以由回归直线来解释和说明
C.总偏差中有80%可以由回归偏差来解释
D.相关系数一定为0.64
E.判定系数和相关系数无关
3.回归分析和相关分析的关系是( )。
A.回归分析可用于估计和预测
B.相关分析是研究变量之间的相互依存关系的密切程度
C.回归分析中自变量和因变量可以互相推导并进行预测
D.相关分析需区分自变量和因变量
E.相关分析是回归分析的基础
4.一元线性回归分析中的回归系数可以表示为( )。
A.两个变量之间相关关系的密切程度
B.两个变量之间相关关系的方向
C.当自变量增减一个单位时,因变量平均增减的量
D.当因变量增减一个单位时,自变量平均增减的量
E.回归模型的拟合优度
5.下列哪些现象之间的关系为相关关系( )。
A.家庭收入与消费支出关系
B.圆的面积与它的半径关系
C.广告支出与商品销售额关系
D.单位产品成本与利润关系
E.在价格固定情况下,销售量与商品销售额关系
6.相关系数表明两个变量之间的( )。
A.线性关系
B.因果关系
C.变异程度
D.相关方向
E.相关的密切程度
7.对于一元线性回归分析来说( )。
A.两变量之间必须明确哪个是自变量,哪个是因变量
B.回归方程是据以利用自变量的给定值来估计和预测因变量的平均可能值
C.可能存在着y依x和x依y的两个回归方程
D.回归系数只有正号
E.确定回归方程时,尽管两个变量也都是随机的,但要求自变量是给定的。
8.从变量之间相互关系的表现形式看,相关关系可分为( )。
A.正相关
B.负相关
C.直线相关
D.曲线相关
E.不相关和完全相关
9.确定直线回归方程必须满足的条件是( )。
A.现象间确实存在数量上的相互依存关系
B.相关系数r必须等于1
C.y与x必须同方向变化
D.现象间存在着较密切的直线相关关系
E.相关系数r必须大于0
10.配合直线回归方程是为了( )。
A.确定两个变量之间的变动关系
B.用因变量推算自变量
C.用自变量推算因变量
D.两个变量相互推算
E.确定两个变量间的相关程度
四、简答题
1.试述相关分析和回归分析的联系和区别。
2.为什么要对回归方程进行检验?
3.解释相关关系的含义,并说明相关关系的特点。
4.简述相关系数的性质。
5.请举一实例说明什么是单相关和偏相关以及它们之间的差别。
6.讨论以下几种场合,回归方程Yt=β0+β1 X2t+β2 X3t+εt中回归系数的经济意义和应取的符号。
(1)Yt为商业利润率;X2t为人均销售额;X3t为流通费用率。
(2)Yt为粮食销售量;X2t为人口数;X3t为人均收入。
(3)Yt为工业总产值;X2t为占用的固定资产;X3t为职工人数。
(4)Yt为国内生产总值;X2t为工业总产值;X3t为农业总产值。
7.什么是相关关系?它和函数关系有什么不同?
8.什么是正相关和负相关?举例说明。
9.构造直线回归模型应具备哪些条件?
10.多元线性回归模型中有哪些基本的假定?
五、计算题
1.某公司8个所属企业的产品销售资料如下:
要求:
(1)画出相关图,并判断销售额与销售利润之间的相关方向;
(2)计算相关系数,指出产品销售额和利润之间的相关方向和相关程度;
(3)确定自变量和因变量,求出直线回归方程;
(4)计算估计标准误差;
(5)对方程中回归系数的经济意义做出解释;
(6)在95%的概率保证下,求当销售额为1 200万元时利润额的置信区间。2.某公司的10家下属企业的产量与生产费用之间的关系如下:
要求:(1)画出相关图,并判断产量与单位生产费用之间的相关方向;
(2)计算相关系数,指出产量与单位生产费用之间的相关方向和相关程度;
(3)确定自变量和因变量,拟合直线回归方程;
(4)计算估计标准误差;
(5)对相关系数进行检验(显著性水平取0.05);
(6)对回归系数进行检验(显著性水平取0.05);
(7)在95%的概率保证下,求当产量为130万件时单位生产费用的置信区间。
3.检查5位同学统计学的学习时间与成绩分数如下表:
要求:
(1)由此计算出学习时数与学习成绩之间的相关系数;
(2)建立直线回归方程;
(3)计算估计标准误差。
4.某种产品的产量与单位成本的资料如下:
要求:
(1)计算相关系数r,判断其相关程度;
(2)建立直线回归方程;
(3)指出产量每增加1 000件时,单位成本平均下降了多少元?
5.某地高校教育经费(x)与高校学生人数(y)连续6年的统计资料如下:
要求:
(1)建立回归直线方程,估计教育经费为500万元的在校学生数;
(2)计算估计标准误差。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。