多媒体是文字、图像(视频)和音频等的综合体,表达了丰富的语义信息。基于内容的多媒体检索研究尝试通过特征分析、机器学习、统计分析等方法,实现自动语义理解和信息检索,主要包括图像检索、音频检索、视频检索等。本章将要介绍的跨媒体检索是基于内容的多媒体检索领域一个新的研究方向,旨在实现检索过程中不同类型多媒体数据间的灵活跨越,并综合分析和应用不同类型的多媒体数据。
与传统的基于内容的多媒体检索不同,跨媒体检索需要度量不同类型的多媒体数据之间的语义相关性,作为检索过程中相似度计算的依据。由于不同类型的多媒体数据采用不同属性的底层特征进行数据表达,如:图像的视觉特征向量和音频的听觉特征向量,这种内容特征的异构性使得跨媒体的相关性度量十分困难。传统的基于内容的多媒体检索虽然没有解决跨媒体相关性度量的难题,但是,这些研究在数据关系挖掘方面取得了相当好的成果,对跨媒体检索具有一定的可借鉴性。
例如:为了缩小多媒体检索过程中底层内容特征和高层语义之间的语义鸿沟,许多研究者探索了多媒体数据间潜在相关性的挖掘,将其作为缩小语义鸿沟的桥梁,提高多媒体检索的效率。这一类型的研究主要包括多媒体特征的融合分析、多媒体关联挖掘、跨语言检索等等。(www.xing528.com)
多媒体特征的融合分析技术针对不同属性的底层内容特征,采用概率模型、线性模型、用户交互等方法综合理解特征所蕴涵的语义。此外,很多研究者还关注了不同数据集之间的关联信息挖掘,如:Web链接关系、文本和图像之间的标注关系等,用以传递和修正相似度计算结果。上述两方面的研究与跨媒体检索存在类似之处,都是通过挖掘多媒体数据集中的潜在关系而实现检索。然而,这些研究往往是针对单一类型的多媒体数据检索,如:图像检索,而不是为了实现检索过程中不同类型多媒体数据间的灵活跨越。因此,难以直接应用于跨媒体检索面临的技术难题和挑战。
本章首先阐述了跨媒体的基本概念,包括跨媒体研究的起因、主要研究范畴,以及本书在跨媒体研究中的定位;然后介绍了与之类似的一些研究及其进展情况,探讨了这些方法的异同,以及对跨媒体检索的应用价值。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。