首页 理论教育 R语言实现一元线性回归模型

R语言实现一元线性回归模型

时间:2023-11-22 理论教育 版权反馈
【摘要】:,εn相互独立;其中,a、b、σ2是未知参数,称式和式为一元线性回归模型。另外,随机地抽出一个人,同时测量其身高和体重,故二者都是随机变量。今后,如无特别说明,在一元回归分析中将固定使用自变量和因变量这对名词,且认为自变量是非随机的。关于一元线性回归模型可形象地用图6.1.2来表示。

R语言实现一元线性回归模型

例6.1.1 为了研究某类企业的产量和成本之间的关系,现随机抽取30个企业,以月产量x为变量单位成本y为因变量,其产量和成本数据如表6.1.1所示。

表6.1.1 某类企业的产量和成本数据

将每对观察值(xi,yj)在直角坐标系中描点(如图6.1.1所示),这种图称为散点图,从图中大致可以看出,单位成本随着产量的增加而减少,它们之间大致呈线性关系,但这些点不是严格地成一直线,即成本随着产量的增加基本上以线性关系减少,但也呈现出某种不规则的偏离。即随机性的偏离,因此,成本与产量的关系可表示为

图6.1.1 x与y的散点图

其中,a+bx表示y随x变化的总趋势;ε是随机变量,它表示y与x间关系的不确定性,称之为随机干扰误差项。一般来说,大量随机干扰因素将相互抵消,其平均干扰为零,即E(ε)=0,这样E(y|x)=a+bx,即给定x时y的条件期望与x呈线性关系。

一般来说,随机扰动误差项有以下几个来源:

(1)未被考虑但又影响着因变量y的种种因素;

(2)变量的观测误差;

(3)模型的设定误差,即y对x的变化趋势可能是非线性趋势;(www.xing528.com)

(4)在试验或观测中,人们无法控制且难以解释的干扰因素。

通常若对自变量x和因变量y作n次观测,得n对数值(xi,yi),i=1,2,…,n,则式(6.1.1)可写成

并假定:

(1)ε1,ε2,…,εn相互独立

其中,a、b、σ2是未知参数,称式(6.1.2)和式(6.1.3)为一元线性回归模型。上述假定(1)意味着试验(或观测)是独立进行的;假定(2)包括两方面,即正态性和方差齐性,而方差齐性意味着y偏离其均值的程度不受自变量x的影响。有的情况下,这种假定不成立,如家庭消费与家庭收入之间的关系,低收入的家庭,其收入主要用于生活必需品,同样收入的家庭之间的消费差别不大;而高收入家庭的生活必需品只占其收入的很小一部分,他们的消费行为差别往往很大,因此同样高收入的家庭之间的消费额差别就很大。

在上述讨论中,产量称为自变量,成本称为因变量,且产量的取值可以由人进行控制,但有时变量间并无明显的因果关系存在,且自变量也并非是随机的,如人的身高和体重,不能说身高是因体重是果,或体重是因身高是果。另外,随机地抽出一个人,同时测量其身高和体重,故二者都是随机变量。今后,如无特别说明,在一元回归分析中将固定使用自变量和因变量这对名词,且认为自变量是非随机的。关于一元线性回归模型可形象地用图6.1.2来表示。

图6.1.2 一元线性回归模型示意图

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈