图像特征提取可以分为三个层次:低层视觉特征提取、中层视觉特征提取和高层视觉特征提取。
一、低层视觉特征提取
低层视觉特征(low-level features)是通过分析图像的像素分布规律获取的特征,如图像的颜色特征、纹理特征和形状特征等,属于视觉原语。
1.颜色特征
颜色特征是最简单最直观的图像全局特征,颜色特征描述了自然图像最突出的信息。采用颜色特征描述图像内容的优点包括:颜色特征非常稳定,对于旋转、平移、尺度变化以及形状变化等都不敏感,而且颜色特征提取和基于颜色直方图的相似性匹配计算比较简单;缺点是颜色特征难以和空间特征相关联。
常用的颜色特征描述子包括:全局颜色直方图、累积直方图、颜色矩、颜色集、显著特征局部颜色直方图、重叠区域颜色矩、颜色相关图、规则分块局部颜色直方图、颜色一致性向量等。
2.纹理特征
一般认为,纹理是一种不依赖于颜色或亮度的、反映图像中同质现象、局部呈现不规则性而整体呈现某种规律性的视觉特征,是所有物体表面共有的内在特性。自然图像和遥感图像的纹理特征如图2-4(a)(b)所示。关于纹理的描述,Tamura等人提出了6个与人类视觉感知相对应的纹理特征:粗糙度(coarseness)、对比度(contrast)、方向性(directionality)、线像性(linelikeness)、规则性(regularity)、毛糙度(roughness);Haralick等人将纹理定义为离散色调特征及其空间关系的均匀性(uniformity)、密度(density)、粗细度(coarseness)、粗糙度(roughness)、规律性(regularity)、强度(intensity)和方向性(directionality)。
纹理特征是基于内容的遥感图像检索中研究最多、应用最广的低层视觉特征。很多研究认为纹理特征是遥感图像分割、分类、目标识别等应用中,最为基本和重要的特征之一,尤其是当遥感图像上目标的光谱信息比较接近时,纹理信息具有较强的区分能力。遥感图像的同质区域分割常常基于纹理特征进行。
图2-4 纹理图像示例(www.xing528.com)
常用的纹理特征提取方法包括:灰度共生矩阵法、数学形态学法、句法纹理分析、马尔可夫随机场模型法、Gabor滤波器、局部二进制模式、小波变换、Contourlet变换等。其中,包括Gabor滤波器、小波变换、Contourlet变换等在内的多尺度纹理分析方法,同时具有空域和频率局部化特性,而人眼视觉皮层中特定的视觉细胞与空间特定频率特性及方向相对应,这种处理模式与多尺度纹理分析方法相一致,因此多尺度分析方法对于图像的纹理特征有很好的判别能力。
3.形状特征
形状特征对于图像的目标识别及分类具有不可取代的作用,包含了一定程度的语义信息。在基于内容的图像检索中,目标的形状通常采用边缘和区域特征来描述。基于区域的形状描述方法注重形状的全局特征,而描述形状局部特征的能力相对有限,常采用几何参数,如面积、周长、中心、对称性、散射性等来描述,也可以采用各种矩描述算子来描述,如几何不变矩、Legendre矩、Zernike矩(Zernike moments descriptors,ZMD)、复数矩、正交的Fourier-Mellin矩,以及网格描述算子(grid descriptors)等。基于轮廓的形状描述方法具有较强的局部形状特征描述能力,通过比较形状的二维轮廓的接近程度进行形状匹配。常用的基于轮廓的形状描述方法有多边形近似(polygonal approximation)、自回归模型(autoregressive models)、傅里叶描述子(Fourier descriptors,FD)、曲率尺度空间描述算子(curvature scale space descriptors,CSSD)等。
随着可获取图像空间分辨率的提高,图像内容越来越丰富,可以观察到更多细节信息。局部特征描述子(如SIFT、DenseSIFT、HOG、LBP等)提供了一种描述图像上以兴趣点为中心的显著块(salient patches)特征的方法,细节表达能力强且满足不变性,应用于图像检索时,比全局特征更适合描述目标及其相互之间的关系。
考虑到单一的低层视觉特征判别能力有限,在实际应用中,研究人员常将不同类型的特征描述子综合起来描述图像内容,以提高检索性能。
二、中层视觉特征提取
与低层视觉特征相比,中层视觉特征(mid-level features)将低层的原始图像视觉特征嵌入视觉词汇空间,相比低层特征,它能够更好地描述图像语义。中层视觉特征对于尺度、光照、旋转等变化具有更高的不变性,能更好地表达复杂图像的纹理和结构特征。提取图像中层特征的一般思路是先获取图像的局部特征,然后应用编码技术将其聚合为整体表达。常用的中层视觉特征包括视觉词袋(bag of visual words,BoVW)、改进的费舍尔向量(improved fisher vectors,IFV)和局部聚集向量(vector of locally aggregated descriptors,VLAD)等。
其中,BoVW是应用最广的编码技术,最早用于文本检索。用于图像检索的基本思想是将图像视为一种文档,而图像的不同局部区域被视为构成图像的词汇。BoVW采用kmeans聚类算法对提取的图像特征点(如SIFT特征)进行聚类,得到k个聚类中心,每个聚类中心代表字典(码本codebook)的一个视觉单词(codeword,即码字),然后将图像的每个视觉单词与字典的各视觉单词(即聚类中心)依次进行比较并归类到最近的聚类中心,并统计出现的次数,从而得到图像的k维BoVW特征。
IFV与BoVW的不同之处在于:BoVW把局部特征点用k-means算法进行聚类,用距离特征点最近的聚类中心去代替特征点;而IFV是把局部特征点用混合高斯分布(gaussian mixture model,GMM)聚类,考虑了特征点到各聚类中心的距离,即用所有聚类中心的线性组合去表示特征点。VLAD是BoVW的改进,不同之处在于:对于BoVW来说,需要使用k-means算法聚类学习一个由k个视觉单词构成的字典(码本),图像的每个局部特征会被分配到与之最近的视觉单词;而VLAD对于每个视觉单词,会累积局部特征分配到视觉单词的差异。对比三种中层视觉特征,VLAD与BoVW相似的地方在于:都是只考虑离特征点最近的聚类中心,但保存了各特征点到最近的聚类中心的距离;VLAD与IFV相似的地方在于都考虑了局部特征的每一个维度。
三、高层视觉特征提取
2012年,Krizhevsky等人在图像分类任务上取得的成功掀起了卷积神经网络在计算机视觉领域的研究热潮。卷积神经网络模型可以模拟非常复杂的非线性函数,从卷积神经模型获取的深度特征包含了高层语义信息,属于图像的高层视觉特征(high-level features),已经被验证能够解决不同的计算机视觉问题,如图像分类、目标检测、图像识别和图像检索等。如前所述,考虑到从头训练一个深层网络模型需要大量的带标签数据样本,而在遥感领域样本数据的标注需要专业人员投入大量的时间和精力,通常采用基于预训练网络或者精调网络的迁移学习,获取图像的全连接层特征和卷积层特征作为图像的高层视觉特征,这些深度特征以其强大的泛化能力,也被用于解决复杂的跨域问题。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。