首页 理论教育 投影寻踪的基本知识和应用

投影寻踪的基本知识和应用

时间:2023-07-02 理论教育 版权反馈
【摘要】:在投影寻踪方法中,涉及线性投影、投影指标和最优投影方向等三个基本概念,为了清楚的了解投影寻踪思想,下面分别介绍这三个基本概念。式是投影寻踪方法实现高维特征量的低维表示的主要根据。因此,构造合理的投影指标、设计有效的优化算法将是投影寻踪方法的核心内容,也是投影寻踪方法得以实现的关键。

投影寻踪的基本知识和应用

在投影寻踪方法中,涉及线性投影、投影指标和最优投影方向等三个基本概念,为了清楚的了解投影寻踪思想,下面分别介绍这三个基本概念。

1.线性投影

线性投影是对高维数据进行投影降维的手段。任意一个秩为k的k×p矩阵A用来表示欧氏空间Rp到Rk的线性投影,称为投影矩阵或投影方向,其中k≪p。对p维随机变量X的线性投影Z由投影矩阵A与随机变量X的矩阵乘积表示,写成数学表达式为

这里一般要求A的k个行向量是相互正交的单位向量,是k个向量线性无关的满秩矩阵。

设X服从于分布F,Z服从于分布FA;当K=1时,A变为列矩阵aT,且Fa表示aT时A的分布。在方向a上的一维投影Fa的特征函数φ等价于F的特征函数φa沿着同一方向a的投影,用下式反映线性投影特征

式中:φa为F的特征函数,φ为一维投影Fa的特征函数。

式(7-37)是投影寻踪方法实现高维特征量的低维表示的主要根据。

在高维空间中,由于样本个数不足使得一些在低维空间很有效的方法在进行高维特征的估计时,失去了优势。现在利用线性投影将p维欧氏空间Rp的数据映射到k维子空间Rk后,在子空间中,数据点的个数不变,但维数由p维降低为k维,可以重新发挥低维空间中有效方法的优势。投影寻踪方法正是利用线性投影研究数据在低维空间散布特征从而找到其在高维空间的结构特征。(www.xing528.com)

2.投影指标

最初的投影寻踪是利用人的视觉作用,寻找反映高维数据的恰当窥视角。计算表明当窥视角为10°时,二维数据的一维投影应有180°/(10°×2)=9个方向,d维数据就有10d-1个投影平面,由于许多复杂的数据结构特征只能在很小的角度内看到,对于这样一个庞大的集合,用肉眼逐个挑选是行不通的,于是借助于计算机,利用一个量化的指标来寻找最佳的投影方向,而这个量化的指标就称作投影指标。

随机变量X在投影方向A上的投影指标表示为Q(FA),实际上Q是一个k维空间上的泛函,即将空间函数转变成某一确定的数值,也可以表示为Q(AX)。当k=1时,表示成Q(aT X)。投影指标可以是均值,即Q(aT X)=ave(aT X),也可以是标准差,即Q(aT X)=var(aT X)等等。在使用优化算法优化投影指标时,指标即是目标函数,其具体形式可以根据具体要求来确定。

3.最佳投影方向

不同的投影方向反映不同的数据结构特征,所谓最佳投影方向应该是最大可能暴露高维数据的某类特征结构的那个方向,从信息论的角度而言,最佳的投影方向是对数据信息利用最充分、信息损失量最小的方向,优化投影方向归根到底是找出某种意义下好的投影指标,可从信息角度用熵定义投影指标。如果数据特征比较复杂,则允许存在若干个投影方向反映数据整体结构的各个方面。直接地说,能将数据清晰地散布为有意义的结构的投影方向,必然是最优投影方向。

综上所述,投影寻踪实质上就是将高维数据投影到线性空间,以投影指标为目标函数,寻找最能反映原高维数据特性或结构的最有投影方向。因此,构造合理的投影指标、设计有效的优化算法将是投影寻踪方法的核心内容,也是投影寻踪方法得以实现的关键

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈