视觉词袋模型(bag of visual word,BoVW)源自用于文本检索的词袋模型(bag of word,BoW)。词袋模型的基本思想是:将文档看作是一些无序的、独立的词汇集合,关注词汇出现的频率而忽略文本的语法和语序,通过统计一段文字或者一篇文章中每个词汇出现的频率构建词频统计直方图,然后通过词频统计直方图比较两段文本的相似程度。视觉词袋模型的基本思想是将图像视为一种特殊的文档,构成图像的词汇是图像的局部区域。
视觉词袋模型的特征提取包括以下3个步骤,如图3-31所示:
(1)特征描述。提取图像的局部特征并进行描述,常用的方法包括SIFT、SURF等。
(2)构建视觉词典(即码本codebook)。利用算法对提取的图像特征进行聚类,生成K个聚类中心,每个聚类中心代表词典的一个视觉单词(也称为码字codeword)。
(3)生成BoVW特征直方图(也称为特征量化)。将图像的每个视觉单词与词典的各视觉单词(即聚类中心)依次进行比较并归类到最近的聚类中心,通过计算每幅图像中每个视觉单词出现的频率构建词频统计直方图,进而得到K维BOVW特征向量。
假设一幅原始图像包含M个(通常为几十到上百)SIFT特征,每个SIFT特征为128维。如果直接用SIFT特征表示图像,则每幅图像需要用一个128×M的特征向量进行表示。而采用BoVW模型时,首先用聚类算法(如K均值聚类)将数据集中所有SIFT特征聚为K类(如256、512、1024或2048等),每个聚类中心代表一个视觉单词,每个聚类中心为128维,由K个聚类中心构成视觉词典;然后,将图像中的M个SIFT特征依次划分到K个聚类中心中,根据视觉词典中K个视觉单词出现的频数,将图像映射为一个K维的BOVW向量。与M个128维的SIFT特征相比,一个K维的BOVW向量维数大大减小,达到了降维的目的,大大提高了运算效率。(www.xing528.com)
图3-31 BoVW模型构建流程图
图3-32给出4组基于BoVW特征的遥感图像检索结果。同样以UCMD数据集为例,同样选取十字路口(intersection)、中型住宅区(medium residential)、高速路(runway)和港口(harbor)作为查询类别。同样的,红色框表示错误检索类别,并在其下注明所属类别。实验结果充分验证了BoVW特征与人工设计的低层视觉特征相比,描述图像内容的能力更强,因此在检索时具有更高的准确性。
图3-32 基于BoVW特征的遥感图像检索结果
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。