首页 理论教育 投影寻踪产生的原理及应用

投影寻踪产生的原理及应用

时间:2023-07-02 理论教育 版权反馈
【摘要】:手工投影寻踪充分发挥了视觉器官的特殊作用,它可以在终端上显示出数据在1

投影寻踪产生的原理及应用

1.背景

投影寻踪处理和分析高维观测数据的基本思想是把高维数据投影到低维(1~3维)子空间上,寻找能反映原高维数据结构或特征的投影,以达到分析高维数据的目的[113]。投影寻踪基本思想包括两个方面:

第一,高维数据向低维(1~3维)空间投影。考察不同的投影子空间,找出其中更能暴露高维数据结构或特征的投影。

第二,针对每个子空间投影得到的构形定义投影指标作为目标函数,计算机自动地寻找使投影指标达到极大的子空间投影[115]

2.手工投影寻踪方法

手工投影寻踪就是利用计算机图像显示系统在终端屏幕上显示出高维点云(point cloud)在二维平面上的投影。通过调节图像输入装置(如光笔或旋钮)可以连续不断地改变投影平面,屏幕上的图像也相应地变化,显示出点云在不同平面上投影的散点图像。操作者通过观测图像来判断投影是否有意义,即是否能反映原数据的某种结构或特征,并不断地调整投影来寻找着这种有意义的投影平面。

用来进行手工投影寻踪的最早的图像显示系统是美国斯坦福大学教授Friedman等人建立的PPIM—9图像系统[118]。使用这个系统可以看到不超过9维的数据在任何二维子空间上的投影图像,以发现数据的聚类结构和超曲面结构。这个系统还可以只显示操作者指定区域内的数据点,把指定区域以外数据点移出屏幕不显示出来。因此,当人们在投影平面上发现了某种聚类结构时,可以把不同类的数据点分开,然后再分别考察同类数据点的结构和特征。

使用这个系统获得成功的一个例子是美国的关于多尿病病理的研究,他们观察了5项指标:相对重量、血糖、血糖面积(Glucose Area)化验指标、体内胰岛素(insulin)化验值和反映胰岛素与血糖关系的化验指标(SSPG)。他们对145个成年人测量了上述指标,把化验结果输入到PPIM—9图像系统,对5项指标中的每3项指标进行分析,观察145个三维点构成的点云在任何二维平面上的投影图像,最后找到一个在医学上很有意义的图像(图7-6,该图是这个投影图像的艺术加工),中间是一个椭圆形的身子,两边各有一个翅膀。中间部分的点是正常人的化验数据,右边对应的是隐性多尿病患者的化验数据,左边的数据点则是来自显性多尿症患者。从图7-6可以看到,隐性和显性多尿症的数据点是完全分开的,除非经过中间的正常状态,两者是不能互相过渡的。这就表明,通常关于两种多尿症可以互相转化的说法是不对的,这一结论也与实际情况相吻合。

图7-6 化验指标投影图

应该指出,如果不用手工投影寻踪这样的图像系统,而向人们通常所做的那样,把5个指标中的每2个指标拿来在平面上作散点图,是得不到这样好的结果的,当然这还只是5维的点,如果维数再高些,恐怕就更难用一般方法来了解数据的结构和特征了。

3.机械投影寻踪方法

所谓机械投影寻踪,是模仿手工投影寻踪,用数值计算方法在计算机上自动地找出高维数据的有意义的低维投影。

这里遇到的第一个问题是如何让计算机判断一个投影是否有意义、有多大意义。这就要事先按照实际统计问题的需要确定一个衡量投影好坏程度(即意义大小)的数值指标,称作投影指标。如果投影越好,指标值就越大,那么机械投影寻踪就是让计算机自动地找出使指标达到最大的投影。这显然是一个用数值方法求极大值的最优化问题。

Huber把这种机械投影寻踪分为抽象形式和具体形式[112]。前者研究的对象是高维分布总体,后者的研究对象是高维的观测数据。

先介绍抽象形式。设X是P维随机向量,其分布函数为F,我们要通过研究k(k<P)维投影来考察,设A是k×P满秩矩阵,一般要求A的k个行向量是相互正交的单位向量,记AX的分布为FA,所谓投影指标就是定义在某个k维分布函数集合Γk上的实值函数Q。对如上的投影矩阵A,AX~FA是X的相应的投影。当FA∈Γk时,它的指标值是Q(FA),为方便起见,有时用Q(AX)代替Q(FA),投影寻踪就是要找一个投影矩阵A,使它的指标值达到最大(或最小)。也就是求如下极值问题的解这个解就是要找到最好的k维投影。

当然,也可以用经验分布,而直接用数据来描述具体形式的投影寻踪,设Q是定义在大小为n的k维样本空间上的实值函数,投影寻踪的具体形式就是要找k维投影矩阵,使

目前用得最多的是k=1的情况,这时A只包含一个单位向量,X的投影是aT X。我们用Fa表示aT X的分布函数。

在用投影寻踪方法探讨高维数据的结构或特征时,只找出一个最好的低维投影往往是不够的,还需要反复地使用投影寻踪,找出第二个,第三个,……个有意义的投影来。直到找不出新的有意义的投影为止,如果应用投影寻踪的目的是找出描述高维数据的某种结构的数学模型,一般可采用如下的迭代模式:

(1)给定一个初始模型。这可以根据经验或猜想给出。(www.xing528.com)

(2)把数据投影到低维空间上,找出数据与现有模型相差最大的投影,这表明在这个投影中含有现有模型中没有反映出的结构。

(3)把上述投影中所包含的结构并到现有模型上,得到改进了的新模型。

然后再从这个新模型出发重复以上步骤,直到数据与模型在任何投影空间都没有明显的差别为止。

从以上的简单介绍可以看出,机械投影寻踪的确为统计、数学和数值计算提出了大量的课题。例如,就投影寻踪方法本身而言,如何根据统计理论或数学原理找出确能反映要探索的数据结构或特征的投影指标;投影寻踪的基本思路是用数据的低维投影来研究其高维结构或特征,那么所研究的高维结构和特征是否可以有其低维投影的结构和特征“拼凑”而成,如果可以,应该怎样拼凑,又如何在计算机上实现等等。就投影寻踪的可行性而言,哪些高维数据的统计问题可以用投影寻踪解决,效果如何;哪些问题不能用投影寻踪解决,为什么?用投影寻踪思想给出的新统计方法与原有的方法关系如何,等等。此外还有许多有关的理论问题。

总之,在投影寻踪方法中,数理统计工作要着力研究的是机械投影寻踪,文献中所讲的一般也是指机械投影寻踪,这里也只是对机械投影寻踪进行详细阐述,除特别申明外,以后所提到的都是指机械投影寻踪。

4.投影寻踪主要特点

投影寻踪是在统计学、应用数学和计算机技术的交叉学科上形成的前沿领域,具有深刻的理论背景。投影寻踪采用“直接从审视数据出发→通过计算机分析模拟数据→设计软件程序检验”的探索性数据分析的新方式,而不像传统的数据分析方法采用“对数据结构或分布特征作某种假定→按照一定准则寻求最优模拟→证实建立的模型”的实证性数据分析的思维方式。因此,投影寻踪方法显示出了与传统方法完全不同的特性,是一种崭新的统计方法,投影寻踪从一开始就在国际统计界引起了广泛的兴趣,受到普遍重视,许多学者都关心和研究这方面的问题。投影寻踪之所以得到迅速发展,与它的以下显著特点是分不开的。

(1)在许多情况下,数据不符合正态分布或对数据没有多少先验信息,需要从数据本身找出其结构和特征。处理这类问题的非参数方法主要依赖于大样本理论,而且许多方法(如核估计方法、近邻估计法等)是建立在空间中每一点附近的样本点基础上的,但高维数据在空间中非常稀疏,与维数相比,样本量总是少得可怜。因此,不仅大样本理论不能用,就是核估计方法一类的非参数工具本身也难以使用,即前述的“维数祸根”问题。投影寻踪最显著的特点或优点就是它成功地克服了高维点稀所带来的严重困难,它将数据的分析投影到低维子空间上进行,对1~3维的投影空间来说,数据点就很密了,足以发现数据在投影空间中的结构或特征,核估计、邻近估计等方法也都可以使用[120]

(2)投影寻踪的第二个重要特点是,它可以排除与数据结构、特征无关的或关系很小的变量的干扰。投影寻踪通过寻找有意义的低维投影,甩掉了一些不重要的变量[121]。正如Friedman和Stuetzle[122]指出的,当维数较高时,数据的结构一般不会只表现在一个投影方向上,也不会在所有投影方向上,而是表现在某几个投影方向上。而那些与结构无关的投影方向只起干扰和冲淡数据结构的作用。投影寻踪方法正是要找出能反映数据结构的投影方向,以排除无关方向的干扰。

(3)投影寻踪方法为使用一维统计方法解决高维问题开辟了用武之地。因为多数投影寻踪考虑的是线性投影(即一维投影),其具体做法是:把高维数据投影到一维空间上,再对投影后的一维数据进行分析,比较不同一维投影的分析结果,找到好的投影。比如处理高维数据的投影寻踪参数估计、投影寻踪回归以及投影寻踪密度估计,所使用的基本统计方法都是一维的M估计、核估计或近邻估计等。

(4)投影寻踪方法与其他非参数方法一样,可以用来解决某些非线性问题,投影寻踪虽然是以数据的线性投影为基础的,但它找的是线性投影中的非线性结构。因此它可以用来解决一定程度上的非线性问题,如多元非线性回归等。

基于上述特点,投影寻踪既能把数据“浓缩”到低维空间,又能排除无关投影方向的干扰,因此,投影寻踪能够比较有效地发现高维数据的特征和结构,甚至发现某些其他方法难以发现的较细微的结构,投影寻踪有着广阔的应用前景。然而,也应该指出,投影寻踪也有其自身的缺点与不足,投影寻踪毕竟是以线性投影为基础,对于高度非线性问题效果不够好。实践表明,在投影寻踪密度估计中,对具有很凹的等高线的密度或等高线是若干个同心球面的密度,效果不太好。因此,不能用投影寻踪取代传统的多元分析方法,而是说,投影寻踪为分析高维数据增添了新的有力的工具。实际上,传统方法与投影寻踪的有机结合,往往会产生更好的效果。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈