首页 理论教育 投影寻踪技术的研究进展

投影寻踪技术的研究进展

时间:2023-07-02 理论教育 版权反馈
【摘要】:20世纪60年代末70年代初,Kruscal[2,124]首先提出了投影寻踪方法,Switzer等[3]人结合数值计算方法成功将投影寻踪技术应用于化石分类问题的研究。并在此基础上构造了投影寻踪聚类分析的一维和二维投影指标,为投影寻踪技术的发展作出了巨大贡献[1,4]。并出现了大量关于投影寻踪技术的研究成果[128~138]。

投影寻踪技术的研究进展

投影寻踪作为处理和分析高维数据的一种统计方法,它是把高维数据投影到低维空间(一般为一维或二维)上,并在低维空间研究能反映高维数据结构或特征的投影特征值,从而达到在低维空间研究高维数据特性的目的,因此,投影寻踪实质上就是一种降维技术。

20世纪60年代末70年代初,Kruscal[2,124]首先提出了投影寻踪方法,Switzer等[3]人结合数值计算方法成功将投影寻踪技术应用于化石分类问题的研究。1974年,Friedman和Tukey[1]对投影寻踪方法作了深入的研究,明确地提出了投影寻踪思想,即将样本数据投影到低维子空间上,对投影得到的低维构形,通过定义好的投影指标,用计算机寻求使投影指标达到极大的一个(或几个)投影方向(或平面),给出直线(或平面)上的数据投影,由计算机图像系统显示出来,然后用肉眼直接判断数据结构特征。并在此基础上构造了投影寻踪聚类分析的一维和二维投影指标,为投影寻踪技术的发展作出了巨大贡献[1,4]。之后,投影寻踪方法在理论研究和实际应用中都取得了重大的突破,相继形成了投影寻踪回归[5,125,126]、投影寻踪分类[125]、投影寻踪密度估计[127]等方法。并出现了大量关于投影寻踪技术的研究成果[128~138]。1985年Huber[112]关于投影寻踪的综合性学术论文的发表,系统地阐述了投影寻踪理论,标志着投影寻踪理论的正式形成。

1.投影寻踪发展简介

投影寻踪方法最早出现在20世纪60年代末70年代初。Kruscal[2,124]把高维数据投影到低维空间,通过数值计算,极大化一个反映数据聚类程度的指标,从而找到反映数据结构特征的最优投影,以发现数据的聚类结构。Switzer[3],Switzer和Wright[139]也通过高维数据的投影解决了化石分类问题。1974年,Friedman和Turkey[1]用数据的一维散布和局部密度的积构造了一类新投影指标,用来进行一维或二维情形下的聚类和分类,并利用这个新指标成功分析了计算机模拟的均匀分布随机数的散布结构、单纯形顶点上的高斯分布以及有名的鸢尾花聚类问题,并将此方法命名为投影寻踪。他们还领导编制了一个用来寻找数据聚类和散布的超曲面结构的计算机图像系统PRIM—9[118],使用者可以在终端上看到不超过九维的数据在任意二维子空间上的投影。前面所提到的关于多尿症病理的例子就是在1976年用这个图像系统获得成功的。至此,投影寻踪还只是数值计算方法,而且只限于作分类(即判别)或聚类分析,没有多少理论根据,靠的是直觉和经验,也没有引起多大反响。Huber非常重视Friedman等人的工作,并在瑞士联邦工学院领导编制了一个类似于PRIM—9的图像系统——PRIM—ETH[140],在1974年以后的四五年里,投影寻踪并没有什么进展。为了扩大投影寻踪思想的影响以及推动投影寻踪的系统研究,在1979年美国数理统计学会年会上,作为数据分析专题组织者的Huber邀请Friedman作了关于投影寻踪的报告,随后Friedman等人的投影寻踪回归,投影寻踪分类,投影寻踪密度估计等相继问世。Huber本人1978年秋到哈佛大学任教以后,一方面领导图像系统和有关软件包的编制和改进,并用它分析各种数据;另一方面积极探索投影寻踪的实质和理论。他还多次组织领导这方面的讨论班。在他的影响和带动下,Donoho[128]指出了Wiggins[141]提出的时间序列分析中的最小熵反褶积法与投影寻踪的联系,并提出用Shannon熵作投影指标比Wiggins用的标准化峰度更好;李国英等[129],陈忠链等[142]以及李国英[143]用投影寻踪方法给出了散布阵和主成分的一类稳健估计,并从理论和模拟两个方面讨论了它们的同变性、定性稳健性、相合性和崩溃点;Donoho利用投影寻踪的基本思想给出了多元位置和散布的一类仿射同变估计,并着重讨论了有限样本崩溃点。此外,Diaconis和Shahshahani[131],Diaconis和Freedman[130],以及Fill和Johnstone[132]分别讨论了与投影寻踪有关的理论问题。

1985年,世界著名的数理统计杂志——美国的《统计年鉴》上发表了哈佛大学教授Huber[112]的特邀的综合性论文“Projection Pursuit”以及15篇相关的讨论文章,全面概括和总结了投影寻踪的所有工作和结果,这也标志着投影寻踪在统计学领域初步建立了自己的独立体系,也大大推动了投影寻踪方法的深入研究和实际应用。

在我国的学者中,除了上面提到的以外,陈忠琏[115]以及成平等[121]分别撰文综合分析介绍了投影寻踪方法。成平等[144]在讨论Huber的文章时,证明了投影寻踪密度估计的一个收敛性问题。1985年成平在中国科学院系统科学研究所组织了一个投影寻踪讨论班,研究人员陆续开展了投影寻踪的研究工作,成平[120]关于密度逼近起始条件的研究,李国英[145]关于多元位置和散布的投影寻踪型估计的性质的讨论,陈家骅关于密度的投影寻踪估计的一个极限定理,成平[120]投影寻踪经验分布的极限分布,等等。

2.投影寻踪应用(www.xing528.com)

从投影寻踪的理论与应用研究来看,主要涉及三方面内容,包括投影寻踪聚类分析、投影寻踪回归以及投影寻踪学习网络。

(1)投影寻踪聚类。1936年Fisher[146]在研究鸢尾花数据的判别问题时,开创了线性判别分析思路,其实质是一种投影寻踪算法。Switze[3]对牙买加化石数据进行分类时,引入了Fisher的上述思想,提出投影寻踪聚类设想。Friedman和Turkey[1]明确地提出了投影寻踪思想:将数据集投影到低维子空间上,对投影得到的低维构形,通过定义好的投影指标,用计算机寻求使投影指标达到极大的一个(或几个)投影方向(或平面),给出直线(或平面)上的数据投影,由计算机图像系统显示出来,然后用眼直接判断数据结构。以上一系列有代表性的研究为拓宽投影寻踪在实践中应用提供了基本思路。之后,投影寻踪聚类方法被广泛用于模式识别和多因素综合评价分析领域[147~171],其基本思路是利用投影寻踪压缩和提取系统的高维特征量后,再对系统模式进行识别。Liu Bao等[164]的研究证明,利用投影寻踪技术压缩高维特征的空间维数后,更有利于识别高维系统模式,文中还构造了一个便于实现的投影指标,同时给出了寻找投影方向的新途径。Flick等[165]利用投影寻踪技术帮助海军沿着一致有利的路线到达目标点。即使由于位置测量存在误差,投影寻踪方法仍能排除干扰,给出稳定的方向解。文献[166]将投影寻踪技术用于大气颗粒源解析分析。由于观测的资料是一些高维数据序列,用投影寻踪方法投影后,选出其中极有效的几维,去捕捉数据的主要特征,并借助于风向资料判定大气颗粒的来源。

文献[167]用投影寻踪技术识别模拟雷达信号,并解决了时间相依的分类问题。文献[168]和文献[150]将投影寻踪技术用于遥感领域,给出了识别卫星云图的新的投影指标。文献[169]用投影寻踪技术压缩可观测到的图象信息,进而识别其余未能观测到的系统灰信息。文献[170]将投影寻踪回归分析方法用于导弹目标追踪问题的研究,由于高维特征量压缩与提取是声纳目标信号分类首先要解决的关键问题,文中基于投影寻踪理论提出了采用投影寻踪压缩与提取,进而分类的理论和方法。将此方法用于实测数据,结果表明其是降低特征空间维数,正确进行分类的行之有效方法。文献[171]采用投影寻踪的思想构造稳健协差阵,建立了一种新的能抗异常值干扰的稳健判别方法,新方法的计算结果不易受异常值干扰。以上研究表明,投影寻踪聚类方法为多元数据分析方法的实践提供一种新思路,取得了优于传统方法的良好效果。

(2)投影寻踪回归。Friedman等很早便意识到投影寻踪方法产生初期所暴露出来的处理高维数据的优势,因此将投影寻踪方法引入多元回归分析,建立了一种广义多元回归分析方法,在一定程度上克服了维数灾的问题,取得了相当满意的预测效果。投影寻踪回归技术已被成功应用于干旱预测、洪水预报以及大气污染浓度预测等研究领域[172~183]。杨力行、郑祖国等[173,174]在前人研究工作的基础上,根据投影寻踪回归思想研制了投影寻踪回归分析软件包,在预测[175]优化[176]等领域取得了丰富成果。史久恩[177]将投影寻踪方法用于气象研究,指出这是一条新的、有用的途径。李作泳等[178~183]将投影寻踪回归方法成功用于环境预测以及环境影响因子的污染作用分析等方面。虽然投影寻踪方法应用还不广泛,但从目前的应用结果分析表明,投影寻踪方法起点较高,思路新颖,较之常规多元分析方法的确表现出一定优势,可以解决参数估计时的高维问题。

除了以上三种主要应用形式外,投影寻踪模型还用于其他一些领域。如广州军医大学颜光宇[58]针对传统因子分析方法易受异常值干扰的缺陷,采用稳健M估计和投影寻踪方法求解稳健相关阵,提出了一种新的可抗异常值干扰的稳健因子分析方法,应用表明,当数据中含有少量异常值时,此方法可抗异常值干扰,优于传统因子分析方法。还有学者提出投影寻踪与模糊神经网络耦合的模型[190~197],对投影寻踪方法及其应用的未来发展趋势进行了讨论[192~196]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈