到目前为止,人们对样本点的本征维数的认识还处于初级阶段。通常情况下,认为一个样本数据的本征维数就是嵌入高维空间的低维流形本身具有的维数。但是这种本征维数的定义是不充分的,因为它没有考虑噪声的影响。也有人将本征维数定义为观测数据建模所需要的自由度。对于一个不同角度旋转的茶壶的多幅图像,一般认为旋转角度就是这些茶壶图像分布的低维流形自由度,也就是说,其本征特征是一维的。相比较而言,这种定义有便于计算、更加实用的优点,但是也存在着如何确定自由度的问题。
为了克服以上两种本征维数定义的不足,Kegi等提出了“拓扑维数”的概念。该定义从数学意义上来说是比较严格的,但是却存在着难于计算的缺点。后来Vervee等还提出了一种相对比较容易计算的“相关维数”和“容量维数”的概念,并将其应用到“拓扑维数”的估计和计算中,在一定程度上减少了“拓扑维数”的计算复杂程度。(www.xing528.com)
在非线性降维过程中,原始数据的本征维数都是根据经验确定或人为设置的。然而本征维数的多少对低维空间嵌入结果有很大的影响。一方面,如果本征维数估计过大,将不可避免地包含多余信息,有可能还有噪声,这将增加后续的识别和分类过程的计算量,同时从数据的分类效果来看,也将造成了一定的负面影响;另一方面,如果本征维数估计过小,高维空间中不同点在低维空间可能会交叠,造成了数据不能正确识别的后果。同时由于本征维数估计过小,会造成很大一部分分类判别信息丢失。对于特征提取而言,以比较廉价的计算代价提取最佳的判别特征,并因此获得较好的数据分类效果是衡量算法优劣的极其重要的一个指标。因此,本征维数的估计是面向分类的流形学习中非常重要和急需解决的问题之一。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。