用回归方程定量地刻画一个因变量与多个自变量间的线性依存关系,称为多元回归分析(multiple linear regression),简称多元回归(multiple regression)。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此,多元线性回归比一元线性回归的实用意义更大。多元线性回归基本计算过程与一元线性回归相同,我们首先需要选取多元数据集并定义数学模型,然后进行参数估计,对估计出来的参数进行显著性检验、残差分析、异常点检测,最后确定回归方程进行模型预测。对于多元线性回归我们可以用下列公式表示,β0-βn为回归参数,ε为残差,回归假设的前提是ε是符合均值为θ,方差为σ2的正态分布,记作N(θ,σ2)。
Y=β0+β1X1+β2X2+…+βnXn+ε
对于多元线性回归分析,要求观察数据和模型的残差满足如下假设:
●因变量y为服从正态分布的连续性随机变量;
●n个自变量之间不存在多重共线性;
●残差是随机变量,且均值为零,方差为常数;(www.xing528.com)
●残差之间相互独立;
●残差服从正态分布。
多元线性回归模型的参数估计主要包括回归参数的最小二乘法估计和显著性检验。同一元线性回归一样,通过拟合优度检验计算决定系数R2和调整R2,取值范围在[0,1]之间,值越大说明拟合效果越好。但需要注意R2只能说明在给定样本条件下回归方程与样本观察值的拟合优度,并不能做出对总体模型的预测。还需要继续对模型中各参数的估计量做显著性检验,包括模型总体显著性检验(F检验)和参数显著性检验(各回归系数的t检验)。
由于多元回归方程有多个自变量,区别于一元回归方程,有一项很重要的工作就是回归变量的选择,需要挑选出相关性最显著的自变量,同时去除不显著的自变量。选择“最优”回归方程的变量筛选法包括逐步回归法、向前引入法和向后剔除法。在R语言中常采用逐步回归法进行优化,其主要过程是每一步都要对已引入回归方程的变量计算其偏回归平方和(即贡献),然后选一个偏回归平方和最小的变量,在预先给定的F水平下进行显著性检验。如果显著则该变量不剔除,其他变量也不剔除(因为其他变量都比该变量贡献大);如果不显著则该变量要剔除。然后继续按照偏回归平方和由小到大依次对方程中其他变量进行F检验。完成全部已有变量检验后,再逐步引入新的变量进行同样检验,直至完成逐步回归过程。在R中常用step()函数或者MASS包中stepAIC()函数完成逐步回归优化。
在多元线性回归模型中,解释变量间完全不相关的情形是非常少见的,大多数变量都在某种程度上存在着一定的共线性。当存在严重的多重共线性时,会给回归系数的统计检验造成一定困难,可能出现F检验能通过,但t检验却不能通过。多重共线性可能导致严重偏差的回归系数和标准误差。因此检查和解决自变量之间的多重共线性,对多元线性回归分析来说是很必要和重要的一个步骤,常用的共线性诊断方法有直观判断法、方差膨胀因子法(VIF)和特征根判断法。在R语言中常用VIF法判断,方差膨胀因子是分析模型项的多重共线性大小的一种度量。小于5的VIF表示该预测变量与其他预测变量的相关性较低。5~10的值表示中等相关性,而大于10的VIF值则是不可容忍的高相关性变量。如果存在多重共线性,可以通过增加样本容量、剔除不重要的解释变量和改用主成分分析解决。在R中常用car包中vif()函数或者performance包中check_collinearity()函数进行多重共线性检测,后者同时能提供标准误差的偏差值。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。