首页 理论教育 基于内容的媒体检索技术的应用

基于内容的媒体检索技术的应用

时间:2023-11-25 理论教育 版权反馈
【摘要】:②基于内容的数字媒体搜索不是采用传统的点查询和范围查询,而是进行相似度匹配。③基于内容的数字媒体搜索实质是对大型数据库的快速搜索。与较为成熟的文本内容搜索相比,数字媒体内容搜索目前仍处于技术发展和完善阶段,国际和国内都有一些实用的系统和引擎推出。

基于内容的媒体检索技术的应用

随着计算机技术及网络通信技术的发展,多媒体数据库的规模迅速扩大,文本、数字、图形、图像、音频和视频等各种海量的多媒体信息检索变得十分重要。图像检索和音视频检索需要经过计算机处理、分析和解释后才能得到它们的语义信息,这是当前多媒体检索正在努力的方向。针对这一问题,人们提出了基于内容的多媒体检索方法,利用多媒体自身的特征信息,如图像的颜色、纹理、形状,视频的镜头、场景等来表示多媒体所包含的内容信息,从而完成对多媒体信息的检索。

1)数字媒体内容搜索技术

索引擎是目前最重要的网络信息检索工具,市场上已有许多相对成熟的搜索引擎产品。但目前的搜索引擎普遍在用户界面、搜索效果、处理效率等方面仍存在不足,经常将信息量庞大与用户兴趣不相关的文档提交给用户。造成这种现象的原因有两种:一是用户所提交的关键词意义不够精确;二是搜索引擎对文档过滤能力有限。

近年来,搜索引擎在研究和应用领域出现了很多新的研究思想和技术,如P2P搜索理念、信息检索Agent、后控词表技术、数字媒体搜索引擎等。其中,数字媒体搜索引擎的目的是使用户能够像查询文字信息那样方便、快捷地对数字媒体信息进行搜索和查询,找出自己感兴趣的数字媒体内容进行播放和浏览。为了达到这一目标,必须将现有的多媒体信息重新进行组织,使之成为便于搜索、易于交互的数据。目前,根据数字媒体类型的不同,搜索引擎可分为图像搜索引擎、音视频搜索引擎、音频搜索引擎。对于每类搜索引擎而言,根据搜索方式的不同可分为文本方式和内容方式。基于内容的数字媒体搜索具有以下特点:

①从数字媒体内容中获取信息,直接对图像、视频、音频内容进行分析,抽取其特征和语义,利用这些内容建立特征索引,从而进行数字媒体搜索。

②基于内容的数字媒体搜索不是采用传统的点查询和范围查询,而是进行相似度匹配。

③基于内容的数字媒体搜索实质是对大型数据库的快速搜索。数字媒体数据库不仅数据量巨大,而且种类和数量繁多,所以必须能够实现对大型数据库的快速搜索。

与较为成熟的文本内容搜索相比,数字媒体内容搜索目前仍处于技术发展和完善阶段,国际和国内都有一些实用的系统和引擎推出。在此基础上,多种检索方法融合的综合检索和基于深层语义信息关联的检索策略将是其发展方向。

2)基于内容的图像检索

目前,基于内容的图像检索的研究主要集中在特征层次上,可在低层视觉特征和高层语义特征两个层次上进行。其中,基于低层视觉特征的图像检索是利用可以直接从图像中获得的客观视觉特征,通过数字图像处理和计算机视觉技术得到图像的内容特征,如颜色、纹理、形状等,进而判断图像之间的相似性;而图像检索的相似性则采用模式识别技术来实现特征的匹配,支持基于样例的检索、基于草图的检索或者随机浏览等多种检索方式。利用高层的语义信息进行图像检索是研究和发展的热点

3)基于内容的音频检索(www.xing528.com)

所谓基于内容的音频检索,是指通过音频特征分析,对不同的音频数据赋予不同的语义,使具有相同语义的音频信息在听觉上保持相似。基于内容的音频检索是一个较新的研究方向。由于原始音频数据除了含有采样频率、编码方法、精度等有限的描述信息外,本身只是一种非结构化的二进制流,缺乏内容语义的描述和结构化的组织,因此音频检索受到极大的限制。相对于日益成熟的基于内容的图像与视频检索,音频检索相对滞后,但它在新闻节目检索、远程教学、环境监测、卫生医疗、数字图书馆等领域中具有很高的应用价值,这些应用的需求推动着基于内容的音频检索技术的研究工作不断深入。由于基于内容的音频检索有着广泛的应用前景和市场前景,因此引起了国际标准化组织的关注。随着数字媒体内容描述的国际标准化,音频内容的描述也将随之标准化,音频内容描述及查询语言将成为研究的热点,基于内容的音频检索将朝着商业化方向迈进。

4)基于内容的视频检索

近年来,视频处理和检索领域的研究方向主要针对以下3个主要问题。

①视频分割:从时间上确定视频的结构,对视频进行不同层次的分割,如镜头分割、场景分割、新闻故事分割等。

②高层语义特征提取:对分割出的视频镜头,提取高层语义特征。这些高层语义特征用于刻画视频镜头以及建立视频镜头的索引。

③视频检索:在事先建立好索引的基础上,在视频中检索满足用户需求的视频镜头。用户的需求通常由文字描述和样例(图像样例、视频样例、音频样例)组合构成。

对视频信息进行处理,需要将视频按照不同的层次分割成若干个独立单元,这是对视频进行浏览和检索的基础。视频分割必须考虑视频之间在语义上的相似程度。已有的场景分割算法考虑了结合音频信息来寻找场景的边界。

早期的视频索引和检索主要是针对颜色、纹理、运动等一些底层的图像特征进行的,随着用户需求的不断升级和技术本身的发展,基于内容的视频索引和检索研究关注不同视频单元的高层语义特征,并用这些语义特征对视频单元建立索引。SofiaTsekeridou通过语音获得说话人方面的信息,结合其他图像方面的特征,可以建立诸如语音、静音、人脸镜头、正在说话的人脸镜头等语义的索引。对一些更加复杂的语义概念,可以定义一些模型来组合从不同信息源得到的信息。另外,也有很多方法利用从压缩域上得到的音频和图像特征进行索引和检索,以提高建立索引的速度。

在视频检索中可以利用的音频处理技术包括:用于查找特定人的说话人识别和聚类、用于查找特定人的说话人性别检测、语音文本检索和过滤、用于分析和匹配查询中的音频样例的音频相似度比较等。如果事先不对音频建立索引,也可以在检索过程中直接利用音频特征比较检索样例与待检索视频之间的相似性,从而实现基于内容的视频检索。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈