首页 理论教育 偏最小二乘回归简介多元统计分析与SAS实现

偏最小二乘回归简介多元统计分析与SAS实现

时间:2023-10-30 理论教育 版权反馈
【摘要】:偏最小二乘回归的成分之间是相互正交的,这在一定程度上可以克服多重共线性的问题。另外,偏最小二乘回归算法的实质是按照协方差极大化准则,在分解自变量数据矩阵x的同时,也在分解因变量数据矩阵y,并且建立相互对应的解释变量与反应变量之间的回归关系方程,充分体现了偏最小二乘回归的基本思想。在第一个成分t1和u1被提取后,偏最小二乘回归分别实施x对t1的回归以及y对u1的回归。

偏最小二乘回归简介多元统计分析与SAS实现

在实际多元线形回归的应用中,我们常受到许多限制。比如:变量之间存在多重相关性;样本量很少,甚至比变量的维度还少。用偏小二乘回归法(partial least-square method)能解决此类问题。举个例子,有很多因素(x1,x2,…,xn),这些因素可以影响结果变量(y1,y2,…,yn),但是样本量很少,而我们又完全不清楚自变量之间、因变量之间存在的关系,探究自变量与因变量之间到底是一个什么关系,是偏最小二乘要解决的问题。偏最小二乘回归法最初由经济计量学家Herman Wold于20世纪60年代提出,其提出的比较系统的算法体系(Wold H,1966),被许多统计学家称为“第二代多元统计分析方法”。

偏最小二乘回归的成分之间是相互正交的,这在一定程度上可以克服多重共线性的问题(Serneels S,2004)。另外,偏最小二乘回归算法的实质是按照协方差极大化准则,在分解自变量数据矩阵x的同时,也在分解因变量数据矩阵y,并且建立相互对应的解释变量与反应变量之间的回归关系方程,充分体现了偏最小二乘回归的基本思想。

其建模原理为:设有q个因变量{y1,y2,…,yq}和p个自变量{x1,x2,…,xp}。为了研究因变量和自变量的统计关系,我们观测了p个样本,由此构成了自变量与因变量的数据表x={x1,x2,…,xq}和y={y1,y2,…,yp}。偏最小二乘回归分别在x与y中提取出成分t1和u1(也就是说,t1是x1,x2,…,xp的线形组,u1是y1,y2,……,yq的线形组合)。在提取这两个成分时,为了回归分析的需要,有下列两个要求(Liao,et al.,2013):

(1)t1和u1应尽可能大地携带他们各自数据表中的变异信息。(www.xing528.com)

(2)t1与u1的相关程度能够达到最大。

这两个要求表明t1和u1应尽可能好地代表数据x与y,同时自变量的成分t1对因变量的成分u1又有最强的解释能力。

在第一个成分t1和u1被提取后,偏最小二乘回归分别实施x对t1的回归以及y对u1的回归。如果回归方程已经达到满意的精度,则算法终止;否则,将利用x被t1解释后的残余信息以及y被t2解释后的残余信息进行第二轮的成分提取。如此往复,直到能达到一个较满意的精度为止。若最终对x共提取了m个成分t1,t2,…,tm,偏最小二乘回归将通过实施yk对t1,t2,…,tm的回归,然后再表达成yk关于原变量x1,x2,…,xp的回归方程,k=1,2,…,p。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈