当观测数据是从一个光滑流形进行均匀稠密采样得到的采样数据时,非线性流形学习方法可以成功地找出内在的流形分布规律。但是在实际应用中,由于各种因素的影响,高维采样数据中总是包含着噪声,当采用流形学习方法进行维数约减时,由于噪声的影响,高维数据在低维空间的映射会出现不同程度的扭曲和变形。
图3-4中,(a)是原始的S全面,(b)表示加入白噪声的S曲面采样数据,(c)是采用流形学习方法对加入白噪声的S曲面数据的映射结果。从图3-4的(c)中可以看出,加入噪声后,映射结果产生了很严重的变形,一方面,流形拓扑结构没有展开,另一方面,各种颜色的样本点混杂在一起。
图3-4
目前存在的大部分流形学习方法对噪声都很敏感,因此,很多学者针对不同的流形学习方法提出了相应的措施。Choi等将Mercer Kernel引入ISOMAP中,提出了一种基于Kernel的ISOMAP映射方法。其基本思想是通过将数据从原始高维空间投影到一个核空间,来提高ISOMAP算法的泛化能力。从实验结果可以发现,Kernel ISOMAP不仅成功地解决ISOMAP对新样本的样本外点学习能力问题,而且对于混杂着噪声的流形数据,还具有比较强的抗噪能力。图3-5显示了应用Kernel ISOMAP算法对噪声数据的处理结果。图3-5中,(a)是Swiss面包卷采样数据,(b)是采用ISOMAP进行映射的结果,(c)是采用Kernel ISOMAP进行映射的结果。图3-5表明了Kernel ISOMAP有着良好的噪声流形学习能力。
(www.xing528.com)
图3-5
针对LLE算法容易受噪声干扰的缺点,Chang等提出了一种比较有效的消除噪声影响的模型。该模型通过局部PCA进行映射,将噪声数据尽可能地转换为干净点,从而最大限度地消除噪声的影响。
另外Zhang等提出了一种局部线性平滑的思想,采用加权PCA来建立局部最小块,并用迭代方法优化权值。该方法从理论上来说与Chang等提出的模型相类似,能够被使用于其他流形学习方法的噪声平滑和预处理,并很好地重构了原始数据。
虽然这些改进的方法在很大程度上能够抑制噪声对原始数据重构的影响,但是它们也存在着一些缺点,如在迭代过程中容易陷入局部极小值。在流形学习过程中如何有效地抑制或消除噪声的干扰将是我们研究的重点,在第4章中将进行重点阐述与验证。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。