多元线性回归模型建立后,是否与实际数据有较好的拟合度,其模型线性关系的显著性如何等,还需要通过数理统计进行检验。常见的统计检验有R检验。
我们都知道,在实际运用中,对任何一个观测个体i,其实际观测值Y,不可能全等于预测值y。那么,要检验所做回归是否较好地实现了对所有观测数据的拟合,需要了解拟合优度,即变异的解释程度。
R是复相关系数,表示回归方程中的全部自变量与因变量的相关密切程度,用于测定回归模型的拟合优度,拟合优度表示的是因变量观测值的总变异中能够由模型解释的部分所占的比例,也就是样本方差中能够被OLS回归线所解释的部分。R2则是复相关系数的平方,称为决定系数,反映线性回归方程能在多大程度上解释因变量的变异性。根据定义可知,R2是一个介于0和1之间的小数,如果R2越大,说明y与x1,x2,…,xk的线性关系越显著,说明回归方程的拟合程度越好;反之,其值越小,说明回归方程拟合程度越差。但单纯使用R2作为模型拟合优度的评判标准往往会导致模型自变量个数过多。所以,为了解决这个问题,大多数回归软件都在报告R2的同时,也报告一个被称为调整R2(adjusted R-squared)的统计量。调整R2与R2不同的是,它剔除了自变量个数的影响,这使得调整R2永远小于R2,且调整R2的值不会由于自变量个数的增加而越来越接近1。调整R2可以改进R2随变量个数增加而增大的问题,因此是更为公正和客观的拟合优度衡量指标。(Chatterjee S.&Hadi A S.,2006)(www.xing528.com)
R2是指回归中因变量变异被自变量解释的程度。但很多人对R2的具体解释存在误解,我们将在这里给大家举例说明。比如,我们想要预测因变量的值,最简单的办法就是运行空模型,即回归中仅有因变量,没有自变量。这时,最佳预测值就是因变量的均数。当然这种空模型也是最差的预测模型,所有自变量对因变量预测值的影响都被我们忽略了。但是在这种空模型中,我们可以估算出回归预测的总变异。随后,我们把相关的自变量重新放入回归模型,再次估算回归变异程度。因为自变量可以在一定程度上影响或解释因变量的变化情况,加入自变量后的变异会比总变异小。这个减少的部分就是R2值,即自变量解释因变量变异的程度。但不可以为了机械地提高R2,而往模型中添加大量不具有统计学意义的解释变量,这一点在实际研究操作中尤其需要注意。在SAS中会自动输出R2与调整R2。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。