【摘要】:本节以CBIR为例,介绍这四个关键技术步骤。图2-2是一个简单的CBIR系统的体系结构示意图,显示了各个步骤之间的逻辑结构和相互关联。图2-2中的查询处理模块将查询请求转换成统一形式的特征表达式,由搜索引擎启动相似度匹配算法,从数据库中找到与查询请求相似的图像,并按照相似度大小排序后输出给用户。
基于内容的多媒体检索包括图像检索、音频检索、视频检索、运动数据检索等多个方向,虽然这些检索技术所处理的数据对象存在较大的差异,但是,在关键技术方面基本上包括了特征提取、高维特征索引、相似度计算、相关反馈这四个核心步骤。本节以CBIR为例,介绍这四个关键技术步骤。图2-2是一个简单的CBIR系统的体系结构示意图,显示了各个步骤之间的逻辑结构和相互关联。
图2-2 CBIR的体系结构示意图(www.xing528.com)
如图2-2所示:首先,从图像数据库中提取出各种底层视觉特征,由于不同的视觉特征在值域上存在一定的区别,需要进行归一化处理,形成视觉特征向量,作为图像数据的基本表达形式;然后,归一化后的特征向量往往维数较高,存在“维数灾难”的问题,不能直接用于相似度匹配,因此需要进行特征预处理和索引。
另外,用户通过查询接口向系统提交的查询请求,可以是一幅图像,也可以是各种视觉特征的组合。图2-2中的查询处理模块将查询请求转换成统一形式的特征表达式,由搜索引擎启动相似度匹配算法,从数据库中找到与查询请求相似的图像,并按照相似度大小排序后输出给用户。用户还可以通过相关反馈模块与检索系统交互,即:从返回的查询结果中标注正确与错误的图像,然后提交给系统,进行再学习和优化,系统将返回修正后的查询结果。下面将对各个步骤进行详细的阐述。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。