首页 理论教育 深入理解解释变量的多重共线性及其处理方法

深入理解解释变量的多重共线性及其处理方法

时间:2023-07-07 理论教育 版权反馈
【摘要】:1.非多重共线性假定解释变量不是完全线性相关的或接近完全线性相关的。|rxixj|≠1,|rxixj|不近似等于1。当时,为时的的10.26倍。回归参数估计值的符号如果不符合经济理论,模型有可能存在多重共线性。通过经济理论及对实际问题的深刻理解,对发生多重共线性的解释变量引入附加条件从而减弱或消除多重共线性。这个过程会出现3种情形。

深入理解解释变量的多重共线性及其处理方法

多重共线性”一词由R.Frisch 1934年提出,它原指模型的解释变量间存在线性关系。

1.非多重共线性假定

解释变量不是完全线性相关的或接近完全线性相关的。

|rxixj|≠1,|rxixj|不近似等于1。

就模型中解释变量的关系而言,有三种可能。

(1),解释变量间非线性相关,变量间相互正交。这时已不需要多重回归,每个参数βj都可以通过y对xj的一元回归来估计。

(2)|rxixj|=1,解释变量间完全共线性。此时模型参数将无法确定。直观地看,当两变量按同一方式变化时,要区别每个解释变量对被解释变量的影响程度就非常困难。

(3)0<|rxixj|<1,解释变量间存在一定程度的线性相关。实际中常遇到的是这种情形。随着共线性程度的加强,对参数估计值的准确性、稳定性带来影响。因此我们关心的不是有无多重共线性,而是多重共线性的程度。

2.多重共线性的经济解释

(1)经济变量在时间上有共同变化的趋势。如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。当这些变量同时进入模型后就会带来多重共线性问题。

(2)解释变量与其滞后变量同作解释变量。

3.多重共线性的后果

(1)当|rxixj|=1,X为降秩矩阵,则不存在,不可计算。

(2)若|rxixj|≠1,即使|rxixj|→1,仍具有无偏性。

(3)当|rxixj|→1时,X′X接近降秩矩阵,即|X′X|→0,变得很大。所以丧失有效性。以二解释变量线性模型为例,当时,时的的2.78倍。当时,时的的10.26倍。

4.多重共线性的检验

(1)初步观察。当模型的拟合优度(R2)很高,F值很高,而每个回归参数估计值的方差var(βi)又非常大(即t值很低)时,说明解释变量间可能存在多重共线性。

(2)Klein判别法。计算多重可决系数R2及解释变量间的简单相关系数。若有某个,则xi,xj间的多重共线性是有害的。

(3)回归参数估计值的符号如果不符合经济理论,模型有可能存在多重共线性。

(4)增加或减少解释变量个数时,回归参数估计值变化很大,说明模型有可能存在多重共线性。

(5)此外还有其他一些检验方法,如主成分分析法等,很复杂。

5.多重共线性的克服方法

(1)直接合并解释变量。

当模型中存在多重共线性时,在不失去实际意义的前提下,可以把有关的解释变量直接合并,从而降低或消除多重共线性。

如果研究的目的是预测全国货运量,那么可以把重工业总产值和轻工业总产值合并为工业总产值,从而使模型中的解释变量个数减少到两个以消除多重共线性。甚至还可以与农业总产值合并,变为工农业总产值。解释变量变成了一个,自然消除了多重共线性。

(2)利用已知信息合并解释变量。

通过经济理论及对实际问题的深刻理解,对发生多重共线性的解释变量引入附加条件从而减弱或消除多重共线性。比如有二元回归模型

x1与xt间存在多重共线性。如果依据经济理论或对实际问题的深入调查研究,能给出回归系数β1与β2的某种关系,例如(www.xing528.com)

式中:λ为常数。把上式代入模型,得

得到

可以看出,该模型是一元线性回归模型,所以不再有多重共线性问题。用普通最小二乘法估计模型,得到,然后再利用变换式式求出

下面以道格拉斯(Douglass)生产函数为例,做进一步说明。

式中:Yt表示产出量,Lt表示劳动力投入量,Ct表示资本投入量。两侧取自然对数后,

因为劳动力(Lt)与资本(Ct)常常是高度相关的,所以lnLt与lnCt也高度相关,致使无法求出α,β的精确估计值。假如已知所研究的对象属于规模报酬不变型,即得到一个条件

利用这一关系把上述模型变为

整理得

变成了ln(YtCt)对ln(LtCt)的一元线性回归模型,自然消除了多重共线性。估计出α后,再利用关系式α+β=1,估计β。

(3)增加样本容量或重新抽取样本。

这种方法主要适用于那些由测量误差而引起的多重共线性。当重新抽取样本时,克服了测量误差,自然也消除了多重共线性。另外,增加样本容量也可以减弱多重共线性的程度。

(4)合并截面数据与时间序列数据。

这种方法属于约束最小二乘法(RLS)。其基本思想是,先由截面数据求出一个或多个回归系数的估计值,再把它们代入原模型中,通过用因变量与上述估计值所对应的解释变量相减从而得到新的因变量,然后建立新因变量对那些保留解释变量的回归模型,并利用时间序列样本估计回归系数。下面通过一个例子具体介绍合并数据法。

设有某种商品的销售量Yt模型如下:

式中:Yt表示销售量,Pt表示平均价格,It表示消费者收入,下标t表示时间。

在时间序列数据中,价格Pt与收入It一般高度相关,所以当用普通最小二乘法估计模型中的回归系数时,会遇到多重共线性问题。

首先利用截面数据估计收入弹性系数β2。因为在截面数据中,平均价格是一个常量,所以不存在对β1的估计问题。

把用截面数据得到的收入弹性系数估计值代入原模型。得

移项整理可得

这时已排除收入变量的影响。模型已变换为一元线性回归模型。利用时间序列数据对模型作普通最小二乘(OLS)估计,求出,。这样便求到相对于原模型的估计式,

式中:是用截面数据估计的,是由时间序列数据估计的。

由于把估计过程分作两步,从而避免了多重共线性问题。显然这种估计方法默认了一种假设,即相对于时间序列数据各个时期截面数据所对应的收入弹性系数估计值都与第一步求到的相同。当这种假设不成立时,这种估计方法会带来估计误差。

(5)逐步回归法。

①用被解释变量对每一个所考虑的解释变量做简单回归。并给解释变量的重要性按可决系数大小排序。

②以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按解释变量重要性大小为顺序逐个引入其余的解释变量。这个过程会出现3种情形。a.若新变量的引入改进了R2,且回归参数的t检验在统计上也是显著的,则该变量在模型中予以保留。b.若新变量的引入未能改进R2,且对其他回归参数估计值的t检验也未带来什么影响,则认为该变量是多余的,应该舍弃。c.若新变量的引入未能改进R2,且显著地影响了其他回归参数估计值的符号与数值,同时本身的回归参数也通不过t检验,这说明出现了严重的多重共线性,应该舍弃该变量。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈