多元线性回归推广了一元线性回归,它有着广泛的实际背景。在实际问题中,影响一个量Y(称为因变量)的因素(称为自变量)往往有多个,分别记为X1,X2,…,Xp。例如,影响一种商品的销售量Y 的因素有人均年收入X1、该产品的价格X2、相关商品的价格X3 等。我们把研究一个因变量与多个自变量之间相随变动的定量关系问题称为多元回归分析。
通常考虑因变量关于自变量的线性关系,即多元线性回归。在一元线性回归分析中,如只考虑人均年收入X1 对销售量Y 的影响时,均值函数形式为
在多元线性回归分析中,同时考虑多个自变量X1,X2,…,Xp 对响应变量Y 的影响时,假设均值函数的形式为
其中主要的思想是通过加入X2,…,Xp 这p-1个新的变量来解释X1 对Y 未能解释的部分。
虽然多元回归比一元回归应用更广泛、方法更复杂,但其基本原理与一元回归的类似,因而可看作一元回归分析的一种扩展。前几节中讨论一元回归分析的很多方法和概念对多元回归问题仍然适用,但在理论和计算上较复杂,为此需要利用矩阵这一代数工具,使得叙述更方便、公式表达更简洁。本节不对多元回归的理论方法等作详细介绍,只是对多元回归的模型和参数估计问题进行简单介绍。
假设关于变量(X1,X2,…,Xp,Y)的多元线性回归模型为
其中,y 是在X1=x1,X2=x2,…,Xp=xp 的条件下Y 的可能观测值,β0 是截距项,β1,β2,…,βp 分别称为y 对x1,x2,…,xp 的回归系数,ε仍为随机干扰项。
现设在给定p 维自变量(X1,X2,…,Xp)的n 个值(p 维的)的条件下,分别对Y 进行了n 次观察,得到(X1,X2,…,Xp,Y)的n个观察值(xi1,xi2,…,xip,yi)(i=1,2,…,n),ε1,ε2,…,εn 是相应的随机观测误差,则基于样本的多元线性回归模型为
并假定ε1,ε2,…,εn 相互独立,且同服从正态分布N(0,σ2)。令
则模型(10.6.2)可简写成
若p=1,则模型(10.6.3)化成一元线性回归模型。
和一元回归分析一样,我们要根据观察所得数据对β0,β1,β2,…,βp,σ2 进行估计。令
则β0,β1,…,βp 的最小二乘估计 应满足,即求β0,β1,…,βp 使Q(β0,β1,…,βp)达到最小,为此,令,得
上述p+1个方程称为正规方程。将式(10.6.4)进行整理,并用矩阵表示,即为
若X′X 可逆,在式(10.6.5)两边左乘(X′X)-1可得B=(β0,β1,…,βp)′的最小二乘估计(www.xing528.com)
称为回归值,称 为残差,令
与一元线性回归类似,有如下定理。
定理10.6.1 ①是B 的线性无偏估计。
②s2 是σ2 的无偏估计。
③与 相互独立。
证明 ①由于ε1,ε2,…,εn 相互独立,且同服从正态分布N(0,σ2),因此E(ε)=0,根据式(10.6.3)得E(Y)=E(XB+ε)=XB+E(ε)=XB,从而得
故是B 的线性无偏估计。
②令P=In-X(X′X)-1X′,则有P′=P,P2=P,且P 的迹
易见PXB=0,而由式(10.6.8)知,e=PY,因此e=PY=PY-PXB=P(Y-XB)=Pε,则e′e=(Pε)′(Pε)=ε′P′Pε=ε′Pε,而
从而
③的证明较为繁复,这里略去。
与一元线性回归一样,还需检验如下假设:
若拒绝原假设H0,则说明多元回归模型线性效果显著,反之,回归方程并无实际意义。除此之外,还需对单个回归系数进行检验,即检验:
若拒绝H0j,则说明xj 对y 的线性影响显著,反之,说明xj 对y 的影响较小,应从回归方程中予以剔除,并重新计算回归方程,这实际上是对变量进行筛选。逐步回归分析就是讨论这样的问题。另外,和一元回归分析一样,可根据所得回归方程进行预测,对此,本书不再一一介绍。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。