20世纪90年代,研究者们提出了基于内容的图像检索技术,即:CBIR。其中,“内容”包括图像的各种底层视觉特征,如:颜色、纹理、形状等,并通过计算内容特征上的相似度来实现检索。
如图2-1所示的这幅图像,如果采用第一章中介绍的基于关键字的图像检索技术,则需要进行语义标注,很可能会得到如下描述:湛蓝的天空、碧绿的海水、狭长的海滩、层层的海浪,等等,这也是对图像的颜色、纹理和形状特征的文字描述。这种文字描述是定性的、主观的,而不是定量的、客观的,如果采用基于内容的方法,则可以在一定的取值范围内对各种内容特征进行量化,然后根据量化后的特征进行相似度计算。在CBIR系统中,用户可以通过设置特征的取值来检索相关的图像。
(www.xing528.com)
图2-1 图像示例
基于内容的图像检索技术的核心思想是:从图像数据库中提取视觉特征向量,作为图像的形式化表达,并对提取的原始特征向量进行降维、去噪、主成分分析等预处理,然后在多维空间中通过向量间的匹配来计算图像之间的相似度,最后按照相似度大小排序输出检索结果。该技术后来被应用到基于内容的视频检索和音频检索中。当然,图像与视频、音频具有不同的底层内容特征,如:视频中的运动矢量特征、音频的时域和压缩域特征,因此,需要采用不同的特征提取和形式化表达方法。
基于内容的检索技术有以QBIC、VideoQ等为代表的早期的原型检索系统,之后,结合反馈建模、融合分析、机器学习、流形学习等方法,对多媒体语义提取进行了更深入的研究。基于内容的多媒体检索研究自从20世纪90年代初被提出以来,一直是计算机视觉领域的一个非常活跃的研究方向,综合应用了统计分析、机器学习、模式识别、人机交互、多媒体数据库等多个领域的知识。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。