传统的距离度量学习根据学习方式和带标签训练样本是否可获取,可以分为监督距离度量学习和非监督距离度量学习。
非监督距离度量学习不需要对数据类型进行标记,通过学习一种低维度流形,使得大部分观测样本之间的距离关系能够在低维度流行中得以保持。非监督度量学习与数据降维之间有潜在的联系。事实上,每一种数据降维算法本质上都是一种非监督度量学习算法。非监督距离度量学习方法可以分成线性方法和非线性方法,经典的线性方法包括主成分分析(pricipal components analysis,PCA)、多维尺度变换(multi-dimensional scaling,MDS)、非负矩阵分解(non-negative matrix factorization,NMF)、独立成分分析(independent components analysis,ICA)、邻域保持嵌入(neighborhood preserving embedding,NPE)、局部保留投影(locality preserving projections,LPP)等;经典的非线性方法包括ISOMAP、局部线性嵌入(LLE)与拉普拉斯特征映射算法(Laplacian eigenmap,LE)等。(www.xing528.com)
监督距离度量学习以数据的类别标签或者相对更容易获取的约束信息作为辅助监督信息,本质上是一个带约束的优化问题,需要在样本给定的约束条件下达到某种指标的最优,比如通过优化度量矩阵从而使得同类别样本之间距离较小,而不同类别样本之间的距离较大。约束条件可以是:标签;成对关系(pairwise relationships);邻近关系三元组(proximity relation triplets)。标签信息可以生成成对关系,成对关系可以获取邻近关系三元组。由此可知,标签属于最强的约束信息。监督距离度量学习是距离度量学习研究的主流,开创性工作为E.Xing等人(2002)提出的概率法全局距离度量学习(probabilistic approach for global distance metric learning,PGDM),该模型将距离度量学习转化为一个带约束的凸规划问题。监督距离度量学习又可以进一步分为全局度量学习和局部度量学习。其中,全局度量学习在所有的约束条件下学习距离度量函数,得到的度量函数满足所有的约束条件,该类型的算法充分利用数据的标签信息,代表性算法包括信息理论度量学习(information-theoretic metric learning,ITML)、马氏度量学习(Mahalanobis metric learning for clustering,MMC)、最大化坍塌度量学习(maximally collapsing metric learning,MCML)等;局部度量学习是在一个局部约束条件下学习距离度量函数,得到的度量函数满足该局部约束条件,该类型的算法同时考虑数据的标签信息和数据点之间的几何关系,例如近邻成分分析(neighbourhood components analysis,NCA)、大间隔最近邻(large-margin nearest neighbors,LMNN)、相关成分分析(relevant component analysis,RCA)、局部线性判别分析(local linear discriminative analysis,Local LDA)等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。