首页 理论教育 基于子空间映射的多模态数据表达技术

基于子空间映射的多模态数据表达技术

时间:2023-07-02 理论教育 版权反馈
【摘要】:下面介绍一种基于线性变换的子空间映射方法,该方法对多媒体数据集的语义标注没有严格要求,只需要随机标注部分训练数据,即可以映射得到一个同构的子空间,并且保持了数据之间的典型相关性。映射过程是按照不同的语义类别,逐个映射到子空间中,从映射结果来看,整个子空间中图像和音频的拓扑分布,也是与这种映射过程相对应的。

基于子空间映射的多模态数据表达技术

不同类型的多媒体数据,在底层特征上各有不同的属性,如:图像的颜色、文理、形状特征,音频的时域、压缩域特征。这些不同属性的特征分别隶属于不同的特征空间。因此,为了建立一种多模态数据的统一表达模型,一种可行的方法是将不同特征映射到一个统一的低维子空间,这个子空间就可以作为图像和音频的统一表达模式。

具体来看,这种相关性是指针对相同语义类别的图像和音频,它们的底层特征向量之间存在的统计关系。例如:从“老虎”类别的图像和音频数据中分别提取视觉特征矩阵以及听觉特征矩阵,两个矩阵之间存在着特定的统计关系;而对于“闪电”类别的图像和音频数据,它们的特征矩阵也存在一定的统计相关性;那么,在进行子空间映射时,需要考虑如何保持“老虎”类别,及“闪电”类别数据各自的相关性。

此外,多媒体数据库中很多都是从Web上下载的图像、音频、视频,通过人工标注语义类别,或者是没有类别标识。因此,在子空间映射前,需要实现多媒体数据的完全标注。下面介绍一种基于线性变换的子空间映射方法,该方法对多媒体数据集的语义标注没有严格要求,只需要随机标注部分训练数据,即可以映射得到一个同构的子空间,并且保持了数据之间的典型相关性。

设有尚未标注的图像和音频数据集Ω=I∪A,作为训练数据集,已知Ω覆盖了Z个语义类别,映射算法描述如下:

步骤1 聚类:

(1)对于每一个语义类别Zi,分别提取其中包括的图像和音频数据的底层内容特征,建立相应的特征矩阵SI,SA

(2)对于每一个语义类别Zi,随机选择m个图像例子Ai进行语义标注;

(3)计算Ai在底层特征空间上的聚类质心ICtri

(4)以ICtri为起始条件,对数据库中所有的图像数据(标注的和未标注的),进行Kmeans聚类;(www.xing528.com)

(5)聚类结果中属于相同类别的图像被赋予与Ai相同的语义标记;

(6)对于音频数据集,重复(1)至(4)。

步骤2 相关性保持映射:

(1)分析图像和音频之间在底层内容特征上的典型相关性,即计算SI,SA对应的子空间基向量Wx,Wy(具体方法参见7.2节);

(2)求取视觉和听觉特征向量映射到子空间中的向量表示:S'I=SIWx,S'A=SAWy

上述算法首先通过Kmeans聚类方法,对相同聚类类别中的图像和音频数据进行了语义标注;然后,针对同一个语义类别中的图像和音频数据,计算了在内容特征方面的典型相关性;并在相关性保持不变的情况下,进行了子空间映射,通过子空间基向量,将原来异构的视觉和听觉特征向量,共同映射到一个维数相同的低维子空间中。

映射过程是按照不同的语义类别,逐个映射到子空间中,从映射结果来看,整个子空间中图像和音频的拓扑分布,也是与这种映射过程相对应的。例如:首先,分析得到“老虎”图像和“老虎”音频之间的典型相关性,映射过程中为保持这种相关性不变,“老虎”图像在子空间中的定位就受到“老虎”音频的影响,反之亦然。然后,计算得到“鸟类”图像与“鸟类”音频的典型相关性。由于在听觉特征上,“老虎”的音频特征与“鸟类”的音频特征存在较大差别,因此,在映射得到的子空间中,“老虎”图像数据的坐标也就和“鸟类”图像的坐标区别开来,以保持原有的相关性不变。定义如上算法得到的子空间为跨媒体特征子空间(Cross-Media Feature Sub-Space,CMFSS)。显然,CMFSS是一个欧氏空间。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈