8.1.1.1 主成分分析的基本原理
在许多领域的研究与应用中,往往需要对反映事物同一特质的多个变量进行观测,以便分析和寻找规律。多变量无疑会为研究和应用提供更丰富的信息,但也可能导致变量之间存在多重共线性的问题,从而增加了问题分析的复杂性和估计结果的不稳定。例如,儿童生长发育指标中,有腰围、腿长、臂长、体重等,如果分别对单个指标进行分析,分析往往是片面孤立的,会遗漏一些重要关联而缺乏系统性。虽然研究者可以通过减少指标的方式使模型精简化,如仅通过BMI指标衡量儿童的身体状况,但这单一指标不能完整地反映问题,还可能产生有偏差甚至错误的结论。主成分分析旨在通过对原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维的作用。它一方面可以减少变量简化研究过程,另一方面也可以通过综合指标更加客观地揭示事物内在规律。当然,一个主成分不能解释p个指标的所有变异,事实上主成分的数量往往等于原始指标,在这些综合指标中包含信息最大的那个被称为第一主成分,包含信息第二多的被称为第二主成分,以此类推到p个主成分,与原始变量相比,各主成分之间是互不相关的。为了实现降维效果,我们选择的主成分数量会少于原始指标的数量。主成分分析可以分为多样本主成分分析和多指标主成分分析。多样本的主成分分析是将多个样本简化为几个综合样本,而多指标的主成分分析则是对指标进行降维。由于两者的原理一致,本章仅介绍多指标主成分分析。
8.1.1.2 主成分分析的数学模型
1.主成分分析的基本模型
设有n个样本,每个样本都有p个指标:X1,X2,…,Xp,通过对原始指标的标准化得到标准指标变量x1,x2,…,xp:
其中,是第j个指标变量的均值,Sj是j个指标变量的标准差。
xp的主成分可用如下公式表示:
公式(8-2)将标准指标x1,x2,…,xp转化为p个新变量(主成分)y1,y2,…,yp,但线性变换要满足三个条件:一是yi和yj相互独立,i≠j且i,j=1,2,3,…,p;二是Var(y1)≥Var(y2)≥…≥Var(yp);三是要保证,即,其中aij为ai的j个分向量,且yi是满足等式中的方差最大者。
2.主成分的计算
求解主成分需要求出标准化指标变量x的相关系数矩阵R的特征值和特征向量,R的特征值方程为:
由公式(8-3)和公式(8-4)可求得p个非负特征值λi(i=1,2,…,k),将特征值从小到大排序为:
再由
求得每个特征值λ;对应的特征向量,各主成分的最终计算公式为:
3.主成分的贡献率和累计贡献率
由于各主成分间的相关系数矩阵为单位矩阵,故主成分yi的贡献率计算公式为:
累计贡献率为:
其中,k为提取的新变量个数。
4.因子载荷(www.xing528.com)
主成分yi特征值的平方根与xj的系数aij的乘积被称为因子载荷:
公式(8-9)中因子载荷qij即为第i个主成分yi特征值的平方根与第j个原始指标xj的相关系数,该指标反映了yi与Xj之间联系的方向和紧密程度。各因子载荷值可构成因子载荷矩阵。
8.1.1.3 主成分分析的应用
主成分析在单纯数据降维和综合评价中都有着广泛应用,但其基本应用有三类:一是简化原始指标,形成综合指标;二是利用主成分进行聚类分析;三是利用主成分进行回归。数据收集后分析应用的一般步骤如下。
第一步对选取的变量进行适用性检验:从理论上,主成分分析包括总体主成分分析和样本主成分分析。但在实际问题中,总体协方差矩阵或相关矩阵都是未知的,都需要样本来估计,就必然涉及统计检验问题(傅德印,2007)。本章介绍两种检验假设方法。
1.巴特莱特球性检验
巴特莱特球性检验(Bartlett test of sphercity)主要利用整体相关矩阵检验原始变量间是否为单位矩阵(存在相关性),若原假设成立,即相关矩阵不为单位矩阵,则适合作主成分分析,反之则不适合。如果变量之间互不相关,进行主成分分析后,主成分为各个原始变量,这样就失去了分析的意义。
2.KMO检验
KMO检验(Kaiser-Meyer-Olkin measure of sampling adequacy test)是通过比较原始变量间的简单相关系数和偏相关系数平方和的相对大小检验变量是否适合主成分分析。如果偏相关系数平方远小于简单相关系数的平方和,那么KMO值接近1,认为变量间存在相关性,适合主成分分析;反之,KMO值接近0,不适合主成分分析。一般而言,进行主成分分析的标准是KMO值大于0.5。
第二步进行数据预处理,包括剔除离群值与样本标准化。
离群值是异常甚至完全错误的样本。例如,在确定人的身高时,获得了5个样本(1.78、1.92、1.83、167、1.87)。以米为单位,但偶然地,第4个样本的实际单位为厘米。离群值对主成分分析法的影响相当大,甚至可以说比对其他多元统计方法的影响都大(王学民,2007;苏为华,2000)。原因在于主成分分析方法是以寻找变异最大化为己任的,而样本中的这些离群值恰恰就会对主成分(特别是第一主成分)的方向起到很大的“支配”作用。如果没有对样品进行校正或移除,此异常值将对后续分析产生不利影响。所以在进行主成分分析之前要对数据进行检查,而主成分分析因为对于离群值的高度敏感本身就是离群值识别的常用方法,所以可以利用主成分分析时多次试验,识别离群值,进而调整数据。
在分析中如果多个变量之间量纲不统一,则必须通过数据的无量纲化来消除指标量纲差异带来的评价上的困难。目前在实践中,线性无量纲化方法包括标准化法、广义指数法、广义线性功效系数法、均值化法(叶双峰,2001)等方法。无量纲化方法的选择要充分考虑评价方法对数据的要求等多方面因素。在本节采用最常用的标准化方法,其公式如前所述。
第三步,在对数据进行预处理后,进行主成分分析,求出所有主成分。当得到了所有主成分后,要根据确定主成分个数的准则和主成分的实际意义来确定主成分的个数。本节介绍三种常用确定方法:
(1)以累积贡献率来确定,这是基于经验的判断准则。当前p个主成分的累积贡献率达到某一特定值时,一般认为是70%~85%,则可保留前p个主成分。
(2)Kaiser-Guttman准则,即根据特征值的大小来确定主成分个数,一般取特征值大于或等于1的主成分。
(3)碎石图准则,根据特征值的大小绘制特征值所谓的“scree plot”,并查看该图中是否有一个点(通常称为“肘部”)使得该图的斜率从“陡峭”变为“平坦”,并且只保留位于肘部的分量。
第四步,计算每一个主成分得分。进行主成分分析并选择保留k个主成分,我们就可以通过特征向量分别计算出每一个主成分的表达式,将每个指标的观测值带入表达式就可以算出每个样本的主成分得分。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。