首页 理论教育 多元统计分析:探究稳健回归

多元统计分析:探究稳健回归

时间:2023-10-30 理论教育 版权反馈
【摘要】:那么,稳健回归是用来处理离群值的问题。当数据含有离群点或者强影响点时,稳健回归会比普通最小二乘法的表现要更优异。在进行稳健性回归分析前,我们需要了解几个概念:杠杆率是指当某个观测值所对应的预测值为极端值时,该观测值称为高杠杆率点。高杠杆率的观测值对于回归方程的参数有重大影响。

多元统计分析:探究稳健回归

上述关于线性回归的模型,都是基于最小二乘法来实现的。但是,当数据样本点出现很多的异常点时,这些异常点对回归模型的影响会非常大,传统的基于最小二乘的回归方法将不适用。例如,在实际研究中,我们时常会遇到离群值,如果数据中有离群值,做线性回归对结果影响大吗?答案是肯定的。当然,可以考虑在做回归分析之前,对数据做预处理,剔除掉那些异常点。但是,在实际的数据中,存在两个问题:

(1)异常点并不能很好地被确定,并没有一个很好的标准用于确定哪些点是异常点。

(2)即便确定了异常点,但这些被确定为异常的点,真的是错误的数据吗?很有可能这看似异常的点,就是原始模型的数据,如果是这样的话,那么这些异常的点就会带有大量的原始模型的信息,剔除之后就会丢失大量的信息。

因此,我们可以通过Cook's D来识别明显的离群值,剔除后再进行线性回归。但如果在离群值不明显、数量较多、研究者无充分理由认为可能的离群值有错误的情况下,直接剔除离群值可能不太合适。那么,稳健回归是用来处理离群值的问题。当数据含有离群点或者强影响点时,稳健回归(robust regression)会比普通最小二乘法的表现要更优异。关于稳健回归的估计方法,最早的方法是由Huber于1973年提出的M估计,其是较早的一种处理异常点的方法,M估计未忽略掉离群值,从而相对地降低了离群值的权重,最终降低了离群值对回归结果的影响(Huber,1973)。而后由Rousseeuw于1984年提出的LTS估计,可用于处理高杠杆值问题(Rousseeuw,1984)。1984年Yohai提出了S估计,是一种通过密集型计算方式来针对自变量中的离群值估计方法。虽然稳健回归得到各种改进,但目前我们应用得最多的一种稳健回归估计是MM估计(Salini S,et al.,2016),由Yashi于1987年提出,它将M估计与LTS估计和S估计结合起来,综合了上述估计方法的优点。因此,我们目前普遍选择MM估计。(www.xing528.com)

稳健回归的基本思想是对不同数据点给予不同权重,残差较小的给予较大的权重,而残差较大的给予较小权重,根据残差大小确定权重,并据此建立加权的最小二乘估计,反复迭代以改进权重系数,直至权重系数的改变小于一定的允许误差,以减小异常值对模型的影响,通过对数据中各样本赋予不同的权重来考虑离群值对回归方程的影响(Lawrence C,1992)。

在进行稳健性回归分析前,我们需要了解几个概念:杠杆率是指当某个观测值所对应的预测值为极端值时,该观测值称为高杠杆率点。杠杆率衡量的是独立变量对自身均值的偏异程度。高杠杆率的观测值对于回归方程的参数有重大影响。影响力点是指若某观测值的剔除与否,对回归方程的系数估计有显著效应,则该观测值是具有影响力的,称为影响力点。影响力是由高杠杆率和离群情况引起的。Cook's D是指综合了杠杆率信息和残差信息的统计量。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈