与大部分其他统计分析一样,回归的目的就是尽可能简单、适用、美观地总结归纳数据带来的信息。在某些问题中,可以利用已存在的理论来刻画响应变量随着预测变量取值变化的规律性,但是,在很多实际问题中,可能并不存在这样的理论,此时我们需要通过数据来发现这些规律。无论哪种情形,回归分析的第一步都是画出一个合适的数据图。首先,我们讨论研究回归数据的基本图形工具——散点图,然后,根据散点图的提示,导出一元线性回归模型的表达式。
例10.1.1 为了研究某类企业的产量和成本之间的关系,现随机抽取30个企业,以月产量X 为自变量,以单位成本Y 为因变量,其产量和成本数据如表10.1.1所示。
表10.1.1
将每对观察值(xi,yi)在直角坐标系中描点,如图10.1.1所示,这种图称为散点图。
图10.1.1
从图10.1.1中大致可以看出单位成本随着产量的增加而减少,它们之间大致呈线性关系,但这些点不是严格地呈一直线,即成本随着产量的增加基本上以线性关系减少,但也呈现出某种不规则的偏离,即随机性的偏离,因此,成本与产量的关系可假设为
其中β0+β1x 表示Y 随X 变化的总趋势,即在X=x 给定的条件下,假设Y 的条件均值E(Y|X=x)=β0+β1x;ε=Y-E(Y|X=x)是随机变量,它表示Y 与X 关系的不确定性,称为随机干扰误差项。一般地,大量随机干扰因素将相互抵消,其平均干扰为零,即E(ε)=0,故上述模型中的假设是合理的。
一般来说,随机干扰误差项有以下几个来源:①未被考虑但又影响着因变量Y 的种种因素;②变量的观测误差;③模型的设定误差,即Y 对X 的变化趋势可能是非线性趋势;④在试验或观测中,人们无法控制且难以解释的干扰因素。(www.xing528.com)
若对变量(X,Y)进行n次观测,得到n 对数值(xi,yi)(i=1,2,…,n),则式(10.1.1)可写成
并假定
其中β0,β1,σ2 是未知参数,称式(10.1.2)和式(10.1.3)为一元线性回归模型。
上述假定(a)描述的试验(或观测)是独立进行的;假定(b)指出两方面,即随机误差的正态性和方差齐性(等方差),而方差齐性意味着Y 偏离其条件均值的程度不受自变量X 的影响。有些情况下,这种假定不成立,如家庭消费与家庭收入之间的关系,对于低收入的家庭,其收入主要用于生活必需品,同样收入的家庭之间的消费差别不大,而高收入家庭的生活必需品只占其消费的很小一部分,他们的消费行为往往千差万别,因此高收入的家庭之间的消费额差别可能很大。
在上述讨论中,产量称为自变量(或预测变量),成本称为因变量,且产量的取值可以由人进行控制(固定设计)。但有时变量间并无明显的因果关系存在,且自变量是随机的,如人的身高和体重,不能说身高是因体重是果,或体重是因身高是果,另外,随机地抽出一个人,同时测量其身高和体重,二者都是随机变量。今后,若无特别说明,在一元回归分析中将固定使用自变量和因变量这对名词,且认为自变量是非随机的。一元线性回归模型可形象地用图来表示,如图10.1.2所示。
图10.1.2
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。