近年来,互联网与多媒体技术的迅猛发展使得多媒体数据呈现爆炸式增长的趋势,多种异构的多媒体数据(如图像、视频、文档等)在Web、数字图书馆以及其他多媒体应用中大量涌现,它们有着相似的语义表达。例如,如果用户在数字百科全书中查询“Great Wall”,他可能会希望得到有关长城的文字介绍、图片,甚至是反映当地风土人情的视频短片。但是,几乎所有现有的查询系统或方法都只是针对某种特定媒体对象的查询,它们在上述这些应用中有很大的局限性:首先,它们局限于某种单一类型的媒体(如单纯的图像查询方法);其次,它们仅依赖多媒体数据的某种特定的特征(如关键字的TF×IDF或图像的颜色、纹理特征等),因此难以提供在语义层面上的相关查询结果。现有的基于单一类型媒体对象的查询技术无法满足大量应用中人们对多媒体信息查询的新需求。
跨媒体(cross media)检索机制能够“兼容”属于各种不同类型的多媒体数据(如文本、图像和视频等)。同时,它能够表达并利用多种类型信息,包括多媒体数据的底层特征、文本中的关键字、数据之间的超链接等,并且能够综合运用多种查询方法得到查询结果。与基于内容的查询方法相比,这种查询机制不但能获得更为丰富的查询结果,而且尽可能运用多方面的知识进一步提高查询结果的相关度,是一种非常主动的检索机制。而且,认知神经心理学方面的研究也验证了人脑的认知过程呈现出跨媒体的特性,认知结果来自视觉、听觉等不同感官的信息相互刺激、共同作用。基于以上分析,跨媒体检索具有坚实的理论依据和现实意义,将成为今后多媒体领域的一个新的研究方向。(www.xing528.com)
目前,跨媒体检索研究已取得了一些研究成果。为了解决异构媒体数据基于底层特征的相关性分析与建模,研究人员从多媒体对象底层特征角度去建立它们之间的相关性,提出了基于典型相关性分析(classical canonical analysis,CCA)的跨媒体查询方法。该方法的基本思想是对于任意两种不同类型媒体对象所对应的特征矩阵,通过CCA方法找到某个基向量,使这两个矩阵的相关性最大化。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。