首页 理论教育 构建多元回归模型的方法与步骤

构建多元回归模型的方法与步骤

时间:2023-06-14 理论教育 版权反馈
【摘要】:根据皮尔逊相关系数定量分析方法,可以看出Katz值与七个变量间存在某种线性相关关系,可以使用多元线性回归模型。为避免自变量间多重共线性问题,使用逐步回归策略进行拟合模型。表9-4-6最优回归系数估计及显著性检验根据表9-4-5可知,回归模型的显著性水平都在0.05以下,说明模型通过F检验,表明LnKatz与各自变量间线性关系显著,可以构建多元线性回归模型。表明模型通过参加检验,可以使用线性多元回归模型分析因变量和自变量之间的关系。

构建多元回归模型的方法与步骤

构建多元线性模型的步骤为:

(1)研究被解释变量和解释变量的关系是否具有显著线性关系,一般通过皮尔逊相关系数法或者制作因变量自变量散点图观察来验证是否存在线性关系;

(2)利用处理后的数据建立线性回归方程,验证回归方程拟合效果和回归系数

(3)根据T检验和F检验结果,验证回归模型线性关系的显著性以及回归系数的显著性。

根据建立回归模型的一般步骤,首先对因变量和各个自变量之间的线性相关性进行讨论。在对影响“一带一路”物流网络连接的因素研究中,希望找到多方面的影响因素来研究“一带一路”物流网络连接机制。但是各个因素间是否存在相关关系,各个因素间互相的作用和影响是否对最终的研究结果产生影响,这都需要进行研究。

(一)相关分析

相关分析是对因变量和自变量之间的相关关系进行研究。二者如果存在正相关关系,则相关系数为正,反之为负。相关系数越大,则二者的相关性越强。通常我们认为相关系数值在0.0~0.2的为不相关或者相关性极弱,0.2~0.4表示弱相关,大于0.4表示相关性较强。

皮尔逊相关系数只对线性关系敏感,所以选用皮尔逊相关系数研究节点相似性值与影响因素之间的相关关系,其结果如表9-4-3所示。

表9-4-3 各指标之间的皮尔逊相关系数

**代表sig值小于0.01。

根据皮尔逊相关系数定量分析方法,可以看出Katz值与七个变量间存在某种线性相关关系,可以使用多元线性回归模型。其中两国首都距离的相关性最强,为0.735且呈负相关,表明距离近的国家间存在航线连接的可能性更大。其次相关性较强的分别是两国间的进出口贸易额(LnTRA)、两国的国际旅游收入(LnINM)和国际入境人数(LnIMM),且呈正相关,表明两国间的人员、资金等流动越多,越可能有航班连接。和上面的四个变量相比,人口(LnPOP)、人均GDP(LnGDP)以及社会安全系数(LnSAV)几个变量与物流网络连接的相关性略低一点。其中社会安全系数(LnSAV)的相关性非常弱,低于0.2,在后续多元线性回归分析中将剔除LnSAV变量。

(二)构建多元回归线性模型

根据上述相关性分析,可知自变量与因变量间存在线性关系。所以本部分将以网络结构相似性值(LnKatz)为因变量,首都距离(LnDIS)、国内人均生产总值(LnGDP)、入境人数(LnIMM)、国际旅游收入(LnINM)、进出口贸易额(LnTRA)、15~64岁人口数(LnPOP)六个变量为自变量,构建多元线性回归方程,模型如下:

式中,C0,C1,…,C6为待估计的回归系数,ε为随机误差项。

由于本研究的数据为截面数据,容易产生异方差性。所以对上述数据进行最小二乘法(WLS)回归,权重设为残差绝对值的倒数。为避免自变量间多重共线性问题,使用逐步回归策略进行拟合模型。结果如表9-4-4所示。

表9-4-4 逐步回归模型类别

续表

(www.xing528.com)

上述八个模型的统计信息如表9-4-5所示。

表9-4-5 八个模型的统计信息

从表9-4-5可以看出,随着自变量数的增加,模型的拟合度越来越高。其中模型8拟合度最优,调整后的R2为0.988,说明该模型中的自变量可以解释因变量的98.8%,剩余的1.2%由随机误差项所解释。模型1只考虑了节点间的双边贸易额因素,调整后的R2为0.671,也就是当只考虑双边贸易额因素时,两个国家间有航线连接可解释的部分为67.1%,其余不能解释的部分由其他因素所影响。模型2考虑距离因素后,两个国家间有航线连接可解释的部分大幅提高为89.0%。当考虑加入第三产业经济因素国际旅游收入,两个国家间有航线连接的可解释部分提高至93.2%。将六个因素逐步放入的模型中,模型8的拟合度最优且残差平方和最小,此时该模型调整后的R2为0.988。

按模型8,代入采集的各影响因素数据样本,进行最优回归系数估计,并进行显著性检验,其结果如表9-4-6所示。

表9-4-6 最优回归系数估计及显著性检验

根据表9-4-5可知,回归模型的显著性水平都在0.05以下,说明模型通过F检验,表明LnKatz与各自变量间线性关系显著,可以构建多元线性回归模型。同时,表9-4-6中回归系数的显著性水平也都在0.05以下,表明模型中的自变量通过T检验,LnTRA、LnDIS、LnINM、LnPOP、LnGDP、LnIMM6个变量对LnKatz具有显著的贡献。从标准化系数可知,距离因素对因变量的影响最大,其次是人口和GDP因素。国际旅游收入和双边贸易额的影响力度较小。

(三)模型检验

1.多重共线性分析

对数据集进行多重共线性检验,使用方差膨胀因子(VIF)检验方法,检验结果如表9-4-7所示。

表9-4-7 VIF检验结果

从表9-4-7的VIF检验结果来看,大多数数值在1~5范围内。表明数据不具有多重共线性,数据间的关系独立,该模型设定合理。

2.残差检验

表9-4-5中的德宾—沃森值为1.514,德宾—沃森检验结果在1~3,都能够表示残差独立,且残差满足正态性分布,如图9-4-1。表明模型通过参加检验,可以使用线性多元回归模型分析因变量和自变量之间的关系。

图9-4-1 残差的正态分布检验

由此可知,LnKatz相似指标值与社会经济等因素间的线性回归模型为:

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈