首页 理论教育 高维数据流形学习算法的结论

高维数据流形学习算法的结论

时间:2023-11-24 理论教育 版权反馈
【摘要】:由以上的标准人脸数据和肿瘤基因表达数据的仿真实验结果,可以得出如下结论:①相对于其他的特征提取方法而言,LLDE算法能够得到比较好的实验结果。LLDE算法是一种线性流形学习方法。③对于基因表达数据,与PCA、PLS和SLLE等特征提取方法相比较,LLDE算法能够获得更高、更稳定的识别率。

高维数据流形学习算法的结论

由以上的标准人脸数据和肿瘤基因表达数据的仿真实验结果,可以得出如下结论:

①相对于其他的特征提取方法而言,LLDE算法能够得到比较好的实验结果。LLDE算法是一种线性流形学习方法。当将此方法应用在高维空间中服从流形分布的数据时,它能够有效地提取特征。但是针对同样是服从流形分布的数据,采用传统的线性特征提取方法将会破坏数据点之间的几何拓扑结构。对于前面实验用到的人脸图像,每一类图像都是同一个人在不同的光照、姿态和表情条件下拍摄的,而且这些因素也已经被研究者们证明是流形的本征特征,所以应用基于流形学习的特征提取方法能够有效地探测到这些本征特征。从这个意义来说,基于流形学习的特征提取方法明显优于其他的线性特征提取方法。另外,相比较其他的监督特征提取方法,一方面,LLDE算法充分利用了原始LLE算法中最小重构误差是平移和缩放不变的特性,所以对于不同类别的数据点可以通过平移、缩放等措施在保证最小重构误差不变的前提下来提高其类别可分能力;另一方面,在LLDE算法中,这种平移、缩放不是随机和任意的,而是通过MMMC标准来自动确定的,这样就有效地保证了算法的可执行性。LLDE变换能使异类数据点被映射得很远,同类数据点被投影得很近,这正是LLDE能够提高数据点的可分性能的原因。

②在LLDE中,缩放和平移是通过一种线性变换的方式表现出来的。线性变换的引进,一方面有效地解决了样本外点学习能力问题,另一方面也降低了算法的计算复杂度。经过平移变换可以发现类内散度是保持不变的,而类间散度却发生了改变,其证明如下:

如果对数据进行缩放变换后,类内散度将改变,类间散度将保持不变,这个可以从式(6.12)和式(4.13)中得到证明。与类内散度的改变相比较,类间散度的改变对识别率的贡献更大。这是因为满足我们所定义的缩放变换并不能改变异类数据质心之间的距离,其改变的仅仅是同类数据之间的距离。然而,平移变换却能起到改变异类数据质心之间的距离的作用。所以我们在引进平移变换的同时,也引进了缩放变换,对于数据分类来说,虽然平移变换起主导作用,但是缩放变换的作用也不能忽略。(www.xing528.com)

③对于基因表达数据,与PCA、PLS和SLLE等特征提取方法相比较,LLDE算法能够获得更高、更稳定的识别率。需要强调的是,除了Glioma数据,对于其他的数据,LLDE算法往往在特征维数很低的情况下取得很好的识别效果。相反,除了Leukemia数据,对于其他的数据,SLLE算法在取得比较理想的实验结果时的特征维数却很高。对于PCA算法,从以上的实验结果中还不能发现比较直观的规律。而对于PLS方法,它也能取得相对较好的结果并且特征维数也相对较小。在基因表达数据的实验中,我们也测试了缩放因子对识别率的影响,实验结果表明缩放因子的影响不大,结合在Yale人脸数据中的相关实验,也能总结出这一规律,这也从另一方面印证了我们上面的理论推导。

在上面的讨论中,我们说明了为什么对于流形分布的数据,LLDE算法能够比较有效地识别数据。在基因表达数据实验中,相对于其他的特征提取方法,LLDE算法也能够获得更理想的识别结果,这也从另一方面印证了基因表达数据也可能服从一定的流形分布,当然这还需要进一步的实验研究和探讨。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈