首页 理论教育 投影寻踪特例:主成分分析

投影寻踪特例:主成分分析

时间:2023-07-02 理论教育 版权反馈
【摘要】:实际上,一些传统的多元分析方法就是投影寻踪的特例,这里仅以主成分分析为例予以说明。图7-7降维处理方法示意图先用投影寻踪的抽象形式来叙述主成分分析。当然,主成分分析只是投影寻踪的一个特例,一般的投影寻踪并不要求后来的投影方向与已经找到的投影方向垂直,另外,实际作主成分分析时,也不用求极值的投影寻踪方法,而是直接求特征根和特征向量。

投影寻踪特例:主成分分析

实际上,一些传统的多元分析方法就是投影寻踪的特例,这里仅以主成分分析为例予以说明。

主成分分析的工作目标就是要对多变量多样本点的平面数据表进行最佳综合简化,也就是在力保数据信息丢失最少的原则下对高维变量空间进行降维处理。一个多变量的高维系统怎样进行降维,这可以从几个最直观的例子来说明主成分分析的工作思路[123]

首先,假如有一个二维数据表,表中数据点的分布如图7-7(a)所示,呈圆棍形,重心是g。很显然,在圆棍子轴的方向u1上,数据的离差最大,因此,所反映的数据信息也最多,这个方向被称为数据变异的最大方向。如果将圆点平移到g,并且做旋转变换,便得到一个正交坐标系u1 gu2。可以看出,若省略u2轴,将数据点在u1轴上投影,就会得到一个简化的一维数据系统。因此,降维处理的核心思想就是省去变异不大的变量方向。

又如,一个三维数据群点的分布是球形的,如图7-7(b)。假若这个球是饼状的,其变异较大的方向为u1,u2,而u3方向的变异很小,即在该方向各样本点取值没有很大的差别,就可以不考虑该方向。若以u1 gu2作为新的坐标系来分析数据,则原三维空间的数据点就可以在二维平面图上得以显示,如图7-7(c)。

图7-7 降维处理方法示意图

先用投影寻踪的抽象形式来叙述主成分分析。

设有p维向量X,其分布是多元正态分布。主成分分析的目的是要看X是否真正散布在整个p维空间上,还是主要地散布在某个维数小于p的子空间上。因此取描述一维随机向量散布程度的标准差作为指标。随机变量Y的标准差记作σ(Y)。那么投影寻踪就是求单位向量a1,使得

同样,也可以用投影寻踪的具体形式来叙述样本情况的主成分分析。设X1,X2,…,Xn是p维观测数据,欲通过主成分分析考察这些数据是否主要的散布在某个维数小于p的子空间上,取样本标准差作为投影指标,一维样本y1,y2,…,yn的标准差为

如果在式(7-40)和式(7-42)的分母中由n代替n-1,那么这里求主成分的投影寻踪具体形式就与在与前面的抽象形式中用经验分布Fn代替总体分布F是完全一样的。

当然,主成分分析只是投影寻踪的一个特例,一般的投影寻踪并不要求后来的投影方向与已经找到的投影方向垂直,另外,实际作主成分分析时,也不用求极值的投影寻踪方法,而是直接求特征根和特征向量。(www.xing528.com)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈