根据主成分分析的基本模型,求解主成分就是求满足以上原则的原始变量X1,X2,…,Xp的线性组合,而主成分分析的基本思想在于在保留原始变量尽可能多的信息前提下达到降维的目的,而所谓保留尽可能多的信息,也就是让变换后所选择的少数几个主成分的方差之和尽可能地接近原始变量方差的总和。
1.求解矩阵的选择与变量的标准化
在求解主成分时,通常从分析原始变量X1,X2,…,Xp的协方差矩阵和相关矩阵着手。基于协方差矩阵和相关矩阵求出的主成分往往存在较大的差异,但是在对数据进行标准化之后,这二者是一致的。注意,无论基于哪一个矩阵求解,均不涉及总体分布的问题,也就是说,与很多多元统计方法不同,主成分分析并不要求数据来自正态总体。
在研究中选择以协方差矩阵还是相关矩阵为基础进行计算会得到不同的结果,当各个变量取值范围相差不大,或度量单位相同的指标时,一般选择直接从协方差矩阵求解;当各个指标有各自不同的度量单位,或取值范围彼此差异非常大时,对这些不同量纲的变量直接做线性组合是不合适的。为消除不同量纲所带来的影响,在主成分分析之前应该对数据进行标准化处理,也就是从相关矩阵的角度来求解,变量标准化的公式如下:
式中,——第j个变量的均值、标准差。
在标准化后,每个变量的均值为0,标准差为1。
2.总体主成分与样本主成分(www.xing528.com)
实际研究中,X1,X2,…,Xp的协方差矩阵Σ和相关矩阵R通常是未知的,需要通过样本数据估计。对于原始资料矩阵式,当X为总体资料矩阵时:
当X为样本资料矩阵时:
式中,S——样本协方差矩阵,作为总体协方差矩阵Σ的无偏估计。
下面的讨论仅针对原始数据为总体资料矩阵,即针对协方差矩阵Σ,对于样本资料矩阵只需要用样本协方差矩阵S代替Σ就可以了。
3.主成分求解方法
假设X1,X2,…,Xp的协方差矩阵Σ有非零特征根λ1,λ2,…,λp(λ1≥λ2≥…≥λp),各个特征根分别对应特征向量γ1,γ2,…,γp,以γ1,γ2,…,γp为系数向量,可以得到Y1=Xγ1,Y2=Xγ2,…,Yp=Xγp分别为向量X的第1主成分,第2主成分,……,第p主成分。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。