我们通常把多元线性回归模型中β1,β2,…,βk称为偏回归系数(partial regression coefficient),其意义为当模型中其他自变量保持不变的情况下,β0反映了第i个自变量xi对因变量y线性影响的度量,或者调整xi和其他预测因子对y的共同线性影响后(Hoaglin,2016),xi每改变一个单位时因变量y的平均变化量。β0表示截距,表示当其他解释变量都等于0时y的值,但在实际情况中,解释变量都不会均为0,所以我们一般不关注此截距值。
由线性回归的适用条件(1)可知,自变量不一定为连续变量,也可能为分类变量。如果自变量x为二分类变量,例如是否结婚(1=是,0=否),则偏回归系数β1可以解释为:其他自变量不变的条件下,x=1(已婚)与x=0(未婚)相比,所引起的因变量的平均变化量。
当自变量x为多分类变量时,例如职业、学历、流动范围等,此时仅用一个回归系数来解释多分类变量之间的变化关系,及其对因变量的影响,就显得太不理想。我们通常会将原始的自变量(多分类变量)转化为哑变量,将哑变量引入线性回归模型,虽然使模型变得较为复杂,但可以更直观地反映出该自变量的不同属性对于因变量的影响,提高了模型的精度和准确度。每个哑变量能够代表某两个级别或若干个级别间的差异。在线性回归程序中,每一个哑变量都能得出一个估计的偏回归系数,从而使得回归的结果更易于解释,更具有实际意义。其解释表达为:其中某个哑变量相对于参照项的偏回归系数,表示其他自变量不变的条件下,与参照项相比,所引起的因变量的平均变化量。(www.xing528.com)
值得注意的是,多元线性回归中偏回归系数与一元线性回归中的斜率系数不同:前者是在保持其他因素(控制变量)不变的情况下,相应自变量对因变量的影响大小;而后者则没有考虑其他影响因素的变化。在实际研究中,经常需要考虑到残差的影响,根据上述提到的适用条件(3)中“在给定x1的条件下,x1和u不相关”,即协方差为零,也就是说,残差项的影响因素应是模型的外生因素。当这个假定没有满足时,模型存在设定偏误。在一元回归模型中,我们将除自变量之外的因素都包含在残差项中,若其中有的因素与自变量有关,则不再满足外生性假定,这时就需要我们使用多元回归模型进行估计。采用一元回归模型无法满足“残差项与自变量不相关”的设定,存在模型设定偏误,得到的估计结果也很可能是有偏的。所以在研究应用中,需要充分考虑误差项的存在,采取合理的操作得到偏差小的结果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。