融合分析技术是多媒体内容分析与语义理解的研究热点,其出发点是:只有不同特征的融合才能表示多媒体数据所蕴涵的完整语义,好比人脑要并行地接收和处理听觉和视觉等信息一样。在这方面,机器学习方法被大量采用,取得了一些好的效果。多媒体研究领域的国际知名会议,如:ACM International Conference on Multimedia、IEEE International Conference on Multimedia&Expo等,在其举行的Tutorial中多次重点介绍如何在多媒体语义理解方面应用机器学习方法,并强调了融合分析的必要性。
融合分析与跨媒体检索研究的共同之处在于,通过分析不同属性的特征,以理解特征所表达的语义。然而,融合分析方法主要应用于单一类型多媒体数据的检索,大部分的单模态检索方法和检索系统都是通过提交一种查询例子,返回与其相似的相同类型的多媒体对象,如:图像检索、音频检索、视频检索等。这些研究工作一般是提取多媒体数据的视觉、听觉、运动特征等,如:颜色、纹理、形状、短时能量和音调,并将多媒体样本用底层特征构成的特征向量来表达,通过对向量的建模和统计分析,实现对多媒体信息的管理和查询。
考虑到多媒体数据从音、形、意等不同方面表达了丰富的语义信息,各个方面之间存在一定的互补性和相关性,如果仅仅是使用单一的视觉或听觉特征,分析和理解多媒体语义,往往难以取得满意的效果。这就促使研究者们通过对数据进行融合分析来提高语义理解的准确性。
现有的商业搜索引擎,如:Google和Yahoo,主要使用与图像相关的文本信息(如文件名、标注文本等)进行相似度匹配,以提供图像检索服务。然而,由于文本信息本身具有一词多义、一意多词等不确定性因素,使得以文本为查询条件的图像检索存在差异较大的缺点。例如:用户提交“老虎”这个关键字作为查询条件,系统可能会返回东北虎、高尔夫球选手“老虎-伍兹”、甚至是老虎牌蚊香等背离用户查询意图的图像检索结果,使用户难以快速找到所需信息。此外,Web是一个有“噪音”的环境,只使用单一类型的多媒体数据作为查询条件难以获取满意的查询结果。(www.xing528.com)
一直以来,多媒体检索领域的许多研究都在关注“基于多特征融合分析的Web图像检索”。这些研究把Web图像的不同特征,如:底层视觉特征、环绕文字的TF×IDF特征以及Web链接信息等,看成不同的模态(Modality),然后用融合分析的方法把各个模态融合起来,进行统计分析和语义理解,以提高图像检索效率。这些研究工作取得了比较好的成果,且大多是将视觉特征和相关的文本特征结合起来进行分析。例如:在Web图像聚类过程中融合图像周围的文本特征和Web链接特征,可以优化图像聚类结果;还可以先使用点积方法计算环绕文本的特征相似度,再使用欧氏距离计算图像的视觉特征相似度,最后,将这两种相似度加权求和进行线性融合;还有研究提出使用概率模型,集成Web图像的环绕文本特征和视觉特征。
从特征分析的本质来看,这些研究主要是利用图像的底层内容特征,以及相关文字、Web链接等非内容特征,形成对图像语义的综合理解。这种多特征的融合分析方式,与跨媒体检索研究中异构特征分析机制有些类似,但是,跨媒体检索是为了实现不同类型多媒体数据之间的灵活检索,而不只是理解图像语义和实现图像检索。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。