首页 理论教育 解析底层异构特征间的内容差距

解析底层异构特征间的内容差距

时间:2023-07-02 理论教育 版权反馈
【摘要】:表6-1多媒体数据的常用底层特征从表6-1可以看到,不同类型的多媒体数据具有不同属性的底层特征,并且,特征之间没有直接可比性。图6-1是跨媒体内容鸿沟的示意图。其中,图像样本位于视觉特征空间,音频样本位于听觉特征空间,彼此之间存在内容鸿沟。另外,底层的视听觉特征和高层语义之间还存在着难以跨越的语义鸿沟,即:特征相似未必语义相似。然而,对于跨媒体的内容鸿沟,相关的研究方法和技术还很少。

解析底层异构特征间的内容差距

从前面章节对图像、音频、视频的特征描述可以看到,在多媒体内容分析和检索应用领域,通常采用底层特征向量表达多媒体数据,表6-1是对这些特征的一个简单归纳。

表6-1 多媒体数据的常用底层特征

从表6-1可以看到,不同类型的多媒体数据具有不同属性的底层特征,并且,特征之间没有直接可比性。因此,定义跨媒体的内容鸿沟如下:

定义1 跨媒体内容鸿沟 是指图像、音频、视频等不同类型的多媒体数据分别使用不同维数、不同属性的底层特征进行数据表达,彼此之间具有异构性和不可比性,难以根据多媒体数据的底层特征计算相关性。

图6-1是跨媒体内容鸿沟的示意图。其中,图像样本位于视觉特征空间,音频样本位于听觉特征空间,彼此之间存在内容鸿沟。另外,底层的视听觉特征和高层语义之间还存在着难以跨越的语义鸿沟,即:特征相似未必语义相似。虽然特征是语义的载体,但是,特征上的相似性并不一定与语义上的相似性吻合。例如:一幅蓝色天空的图像和一幅蓝色海洋的图像,两者在特征上都以蓝色为主,具有相似性,但是,两者表达了不同的语义概念。(www.xing528.com)

图6-1 跨媒体的内容鸿沟示意图

跨媒体内容鸿沟和语义鸿沟正是跨媒体检索面临的主要技术难题。跨媒体检索源于基于内容的多媒体分析与检索;而语义检索自从被提出以来,也一直面临着语义鸿沟的难题。为此,各种线性非线性的特征分析方法相继被提出,如:PCA(Principal Component Analysis),ICA(Independent Component Analysis),PLS(Partial Least Squares),SVD(Singular Value Decomposition),ISOMAP等,在特征降维和统计分析的同时,缩小了语义鸿沟,较为准确地估计了多媒体数据在语义上的相似度,成功应用于图像检索、音频检索等单一类型的多媒体检索系统中(详见本书第二部分)。然而,对于跨媒体的内容鸿沟,相关的研究方法和技术还很少。

虽然跨媒体的内容鸿沟和语义鸿沟是两个不同的概念,但是,在实际应用中两者之间存在相互影响和制约关系,由于语义鸿沟的存在,内容鸿沟问题难以直接通过传统的降维映射方法解决,举例说明如下:

假设图像数据集对应的视觉特征向量维数为m,并用s1表示图像的特征空间,设音频数据集对应的听觉特征向量维数为n,用s2表示音频的特征空间。那么,可以用传统的特征降维方法,将图像特征向量和音频特征向量都映射到一个维度为z(z<n,且z<m)的低维特征子空间s3,这样就解决了异构性问题,图像和音频可以在同一个空间中用相同的模式进行表达。然而,由于这种方法在特征降维和分析过程中没有学习图像和音频数据集之间的统计关系,只是单纯将图像和音频特征降维到相同的维度,由于语义鸿沟的存在,很难在子空间s3中计算图像和音频数据之间的相关性。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈