首页 理论教育 基于关键字的多媒体检索方法优化

基于关键字的多媒体检索方法优化

时间:2026-01-23 理论教育 版权反馈
【摘要】:基于关键字的多媒体检索即以用户提交的关键词为查询条件,从数据库中找到语义上相关的各种多媒体信息,包括基于关键字的图像检索、基于关键字的视频检索、基于关键字的音频检索等。图1-1为基于关键字的图像检索的例子,用户在百度图片搜索页面上输入关键字“老虎”,系统返回了与之相关的“老虎”图像。

由于图像、音频、视频等多媒体数据具有非结构化和半结构化的特点,难以像文本检索那样提取出能够反映语义的关键词。因此,为了能够快速、准确地访问多媒体数据,研究人员在过去的十几年中开展了大量的研究工作,其技术路线主要可分为两类:基于关键字的多媒体检索方法和基于内容的多媒体检索方法。基于关键字的多媒体检索即以用户提交的关键词为查询条件,从数据库中找到语义上相关的各种多媒体信息,包括基于关键字的图像检索、基于关键字的视频检索、基于关键字的音频检索等。

图1-1为基于关键字的图像检索的例子,用户在百度图片搜索页面上输入关键字“老虎”,系统返回了与之相关的“老虎”图像。

图示

图1-1 基于关键字的图像检索例子

基于关键字的多媒体检索技术早期受到了文本检索的启发,20世纪70年代末,文本检索技术首次被应用于图像检索中:首先,用人工标注的形式对数据库中的所有图像进行关键字标注;然后,计算用户提交的查询关键字和数据库中的图像标注之间的相似度,并按照相似度大小的降序输出相似图像,形成了基于关键字的图像检索。

在图像的关键字标注过程中,往往会根据图像的采集条件,采用纯手工方式或半人工干预等方式。一般而言,如果采集的图像是独立的,则关键字完全来源于标注者;若图像周围有伴随性文本,则往往采用文本分析技术,从伴随文本中提取关键字作为图像标注。例如:对网页上图像周围的新闻内容进行文本语义分析,得到图像的关键字标注。

这种方法使得检索对象不再局限于单一的文本,而可以是各种类型的多媒体数据,同时,也存在一定的局限性。如图1-2所示,不同的人对这幅图像进行标注,很可能会得到不完全一样的结果,并且,标注的详尽程度也不尽相同。(https://www.xing528.com)

图示

图1-2 图像的人工标注例子

可能标注的关键字:丛林、树木、草丛、石头、溪水,等等

上述局限性可以归纳为以下几个方面:

(1)所谓“一图胜千言”,图像描述了丰富的语义信息,音频、视频等多媒体数据也同样具有语义丰富的特点,这就使得人工标注的详尽程度难以统一,从而直接影响了查询的复杂程度。

(2)存在人为理解的主观性和偏差性问题,即使对于同一幅图像或同一段视频,不同的人很可能会做出不同的理解和标注,将对图像标注结果造成极大的影响,甚至造成检索过程中的不精确匹配和错误匹配。

(3)人工标注费时费力,尤其是对于大规模的多媒体数据集,需要花费大量的人力物力实现多媒体数据的关键字标注,并且,多媒体自动标注技术发展尚未成熟,难以实现高准确率的多媒体自动标注。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈