首页 理论教育 图像特征分析:颜色、纹理和形状等对内容检索的重要性

图像特征分析:颜色、纹理和形状等对内容检索的重要性

时间:2023-07-08 理论教育 版权反馈
【摘要】:本小节介绍图像的视觉特征,主要包括色彩、纹理和形状等,它们是实现基于内容的特性检索的基础。1)颜色特征颜色特征是在图像检索中应用最为广泛的视觉特征,它与图像中所包含的物体或背景紧密相关。相比之下,聚类算法则会考虑到图像的颜色特征在整个空间中的分布情况,从而避免出现某些bin中的像素数量非常稀疏的情况,使量化更为有效。

图像特征分析:颜色、纹理和形状等对内容检索的重要性

一般来说,图像特征包括语义特征(如关键字及注释等)和视觉特征(如色彩、纹理及形状等)两类。本小节介绍图像的视觉特征,主要包括色彩、纹理和形状等,它们是实现基于内容的特性检索的基础。

1)颜色特征

颜色特征是在图像检索中应用最为广泛的视觉特征,它与图像中所包含的物体或背景紧密相关。此外,与其他视觉特征相比,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,从而具有较高的鲁棒性。在提取颜色特征时,首先需要选择合适的颜色空间来描述颜色特征,然后采用一定的量化方法将颜色特征表达为向量的形式,最后定义一种相似度(距离)标准来衡量图像之间在颜色上的相似性

(1)颜色直方图

在许多图像检索系统中,颜色直方图(color histogram)是一种使用最为广泛的颜色特征,用它来描述不同色彩在整幅图像中所占的比例。颜色直方图可以通过不同的颜色空间和坐标系得到。最常用的颜色空间是RGB颜色空间,因为大部分数字图像都采用该颜色空间表达,即任何颜色都可以通过红、绿、蓝(R、G、B)三种颜色相加得到。然而RGB空间结构并不符合人们对颜色相似性的主观判断。因此,研究人员相继提出了基于HSV空间、LUV空间和Lab空间的颜色直方图,它们更接近于人们对颜色的感知。其中,HSV空间是直方图最常用的颜色空间,其颜色空间模型对应于圆柱坐标系的一个圆锥形子集。它的三个分量分别代表色调(hue)、饱和度(saturation)和亮度(value)。

色调(hue)是指光的颜色,它与混合光谱中主要光波长相联系,如红、橙、黄、绿、青、蓝、紫分别表示不同的色调。就波长的意义上讲,不同波长的光呈现不同的颜色,就是指色调不同。

饱和度(saturation)是指彩色的深浅程度,即与一定色调的纯度相关。饱和度高表示颜色深,如深红;饱和度低则颜色浅,如浅红。饱和度的高低与色光中白光成分的多少有关,一种纯彩色光中加入的白光成分越少,其饱和度就越高,反之,饱和度就越低,因而饱和度反映了某种色光被冲淡的程度。

亮度(value)是指人眼感受到的光的明暗程度,亮度与物体的反射率成正比,如果是无彩色就是指只有亮度一个维的变化。对彩色来说,颜色中掺入白色越多就越明亮,掺入黑色越多亮度就越小。

用一个三维空间纺锤体可以将色调、饱和度和亮度表示出来,如图7-6所示。其中立体的竖直轴代表黑白系列亮度的变化,圆周上各点代表不同的色调,从圆周向圆心过渡表示饱和度逐渐降低。

图7-6 HSV颜色空间

HSV颜色空间有两个特点:其一,亮度分量与图像的彩色信息无关;其二,色调和饱和度分量与人感受颜色的方式是紧密相连的。这些特点使HSV颜色空间成为非常适合借助人的视觉系统来感知彩色特性的图像处理算法。HSV颜色空间直接对应人眼色彩视觉特征的三要素,通道之间各自独立,可以独立感知各颜色分量的变化,其中色调尤其影响着人的视觉判断,因此在基于内容的图像检索中,应用这种彩色模型会更适合用户的视觉判断。

计算颜色直方图需要将颜色空间划分为若干个小的颜色区间,每个小区间成为直方图的一个bin。该过程称为颜色量化(color quantization)。然后,通过技术统计落在每个小区间内的像素数量就可以得到颜色直方图。颜色量化有许多方法,例如向量量化、聚类方法或神经网络方法。最常用的做法是将颜色空间的各个分量(维度)均匀地划分。相比之下,聚类算法则会考虑到图像的颜色特征在整个空间中的分布情况,从而避免出现某些bin中的像素数量非常稀疏的情况,使量化更为有效。

合适的bin和量化方法的选择与具体应用的性能和效率要求有关。一般来说,bin的数目越多,颜色直方图对颜色的分辨能力就越强。但是当bin的数目很大时,不仅会增加计算工作量,也不利于在大型图像库中建立索引。改进的颜色直方图方法有累加直方图、局部累加直方图。相关实验结果表明累加直方图和局部累加直方图的检索效果要好于全局颜色直方图。

(2)颜色矩。

1995年,Stricker和Orengo提出了另一种简单而有效的颜色特征——颜色矩(color moments)。此方法的数学基础在于图像中任何的颜色分布均可以用它的矩来表示。由于颜色分布信息主要集中在低阶矩中,因此仅采用颜色的一阶矩、二阶矩和三阶矩就足以表达图像的颜色分布。与颜色直方图相比,此方法的另一个优点在于无需对特征进行向量化。颜色的三个低阶矩在数学上表达为:

式中,pij是图像中第j个像素的第i个颜色分量。因此,图像的颜色矩一共只需要9个分量(3个颜色分量,每个分量上有3个低阶矩),与其他的颜色特征相比是非常简洁的。在实际应用中为避免低阶矩较弱的分辨能力,颜色矩常常和其他特征结合使用,而且一般在使用其他特征前起到缩小范围的作用。

(3)颜色集。

Smith等学者提出用颜色集作为对颜色直方图的一种近似,可用于支持大规模图像库中的快速查找。首先,将RGB颜色空间转化成视觉均衡的颜色空间(如HSV空间),并将颜色空间量化成若干个bin。然后,用色彩自动分割技术将图像分为若干区域,每个区域用量化颜色空间的某个颜色分量来索引,从而将图像表达成一个二进制的颜色索引集。最后,在图像匹配中,比较不同图像颜色集之间的距离和色彩区域的空间关系(包括区域的分离、包含、交等,每种关系对应不同的评分)。因为颜色集表达为二进制的特征向量,可以构造二分查找树来加快检索速度。对于大规模的图像数据库的检索,这种方法十分有效。

(4)主色调法。

主色调法是为了减少运算量,并且减少噪声对检索效果的影响,仅对直方图中出现较多的、能代表一幅图像的基本概貌的颜色进行匹配的算法。简单的主色调法是根据图像颜色直方图提取图像的几种主颜色及其频数作为图像索引,检索时由用户指定(使用调色板)主颜色或提取示例图像的主颜色并进行相似性匹配计算,得到具有相似主颜色特征的目标图像集。还有一种改进的算法——扩展主色调法。通过上述方法得到特征向量后,可以选用直方图相交法进行相似性度量。

(5)颜色聚合向量。

针对颜色直方图和颜色矩无法表达图像色彩的空间位置的缺点,有学者提出了图像的颜色聚合向量(color coherence vector)。它是颜色直方图的一种演变,其核心思想是将属于直方图每一个bin的像素分为两部分:如果该bin内的某些像素所占据的连续区域的面积大于给定的阈值,则该区域内的像素作为聚合像素,否则作为非聚合像素。假设αi与βi分别代表直方图的第i个bin中聚合像素和非聚合像素的数量,图像的颜色聚合向量可以表达为[(α1,β1),(α2,β2),…,(αN,βN)],则该图像的颜色直方图为[α11,α22,…,αNN]。由于包含了颜色分布的空间信息,颜色聚合向量相对于颜色直方图来说可以达到更好的检索效果。事实上,一些相关实验结果表明颜色聚合向量只对那些颜色或纹理比较统一的图像有较好的效果,对于一般的图像来说并没有什么明显的优势。

(6)颜色相关图。

颜色相关图(color correlogram)是利用图像中像素间的颜色关系来描述图像颜色空间分布的另一种表达方式。颜色相关图不但刻画了某一颜色的像素占整个图像的比例,还反映了不同颜色对之间的空间相关性。实验表明,颜色相关图比颜色直方图和颜色聚合向量具有更高的检索效率,特别是查询空间关系一致的图像。

假设I表示整幅图像的全部像素,Ic(i)则表示颜色为c(i)的所有像素的集合。那么颜色相关图可以表达为:式中,i,j∈{1,2,…,N},k∈{1,2,…,d},|P1-P2|表示像素P1和P2之间的距离。如果考虑任何颜色之间的相关性,颜色相关图就会变得非常复杂和庞大[空间复杂度为O(N 2 d)]。一种简化的变种是颜色自动相关图(color autocorrelogram),它仅仅考察具有相同颜色的像素之间的空间关系,因此空间复杂度降到O(Nd)。(www.xing528.com)

2)纹理特征

纹理特征是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征。例如云彩树木、砖、织物等都有各自的纹理特征。纹理反映了图像的某种局部性质,是对局部区域中像素之间关系的一种度量,其本质是刻画邻域像素灰度的分布规律。对纹理图像的描述往往借助于纹理的统计特性或结构特性进行,同时对基于空域的性质也常常可以转换到频域进行研究。

纹理作为物体一个重要而又难以描述的特征,也是基于内容检索的一条重要线索。基于纹理的图像检索在区分相似颜色区域时是非常有用的。但纹理描述的难点是它与物体的形状存在着密切的关系,千变万化的物体形状与嵌套式的分布使纹理的分类变得十分困难。和颜色相比,纹理是图像基于像素点的特征,它需要在包含多个像素点的区域内进行统计计算,所以纹理是一种统计特征,具有旋转不变性,最大的缺陷是受图像的分辨率影响大,当图像的分辨率发生变化时,计算出来的纹理可能有很大的偏差。常用的纹理描述方法有统计法、频谱法、结构法和模型法四种。

(1)统计法。

统计法分析纹理的主要思想是通过图像中灰度级分布的随机属性来描述纹理特征。最简单的统计法是借助灰度直方图的矩来描述纹理,但这种方法没有利用像素相对位置的空间信息。为了利用这些信息,Haralick等人提出了利用共生矩阵来描述纹理特征,该方法研究了纹理的空间灰度级相关性,构造了一个基于像素间方向和距离的共生矩阵,然后从灰度共生矩阵中提取有意义的统计特征作为纹理特征的表达,所提取的统计特征主要包括能量、、相关性、惯量及纹理能量等。基于人类对纹理的视觉感知和认知心理学的研究,Tamura等人提出了相应的纹理特征表达方式,Tamura纹理特征的六个分量分别对应于心理学角度上纹理特征的六种属性:对比度(contrast)、粗糙度(coarseness)、方向性(directionality)、线像度(line likeness)、规整度(regularity)和粗略度(roughness)。

(2)频谱法。

频谱法主要借助频率特性来描述纹理特征。常用的频谱法主要包括傅里叶功率谱法,Gabor变换,塔式小波变换(pyramid wavelet transform,PWT),树式小波变换(tree wavelet transform,TWT),等。

(3)结构法。

结构法分析纹理的基本思想是假定纹理模式由纹理基元以一定的、有规律的形式重复排列组合而成,特征提取就变为确定这些基元并定量地分析它们的排列规则。由于纹理基元描述了局部纹理特征,因此对整幅图像中不同纹理基元的分布统计可获得图像的全面纹理信息。

(4)模型法。

模型法主要利用一些成熟的图像模型来描述纹理特征,如基于随机场统计学的马尔可夫随机场、子回归模型、多尺度子回归模型、分形模型等。这些模型的共同特点是通过少量的参数表征纹理。

3)形状特征

作为图像表达和查询中的另一个重要特征,物体和区域的形状不同于颜色或纹理等底层特征,它必须以图像中物体或区域的划分为基础。由于自然图像中的对象和区域的分割原本就比较困难,因此一般情况下图像的形状特征是难以自动提取的。目前,在基于内容的图像检索中,基于形状的相似性检索仍是一个难题,有关图像形状的表示方法主要有两类,即基于边界的表示方法和基于区域的表示方法。

基于边界的形状提取是在边缘检测的基础上,用形状数、周长、圆形性、紧密度、角点、链码、兴趣点等来描述物体的形状。通常,它们只能用来识别差异较大的形状,大多用于初步过滤或者和其他的形状特征结合起来使用。边界矩可以减少边界表示的维数,其优点是易于实现,但只有少量的低阶矩有物理意义。最典型的描述方法是傅里叶形状描述符(Fourier shape descriptors),其基本思想是对物体轮廓进行傅里叶变换,将前几个Fourier系数用于近似边界形状的表示,从而将二维问题转化为一维问题,这种方法需要提取出图像的近似外边界。边界方向直方图用Canny边缘检测算子进行边缘检测并提取边界方向特征,其具有尺度不变性,能够描述图像的大体形状,并且对图像中有局部噪声的情况鲁棒性比较好,但它不具备旋转不变性。其他学者还提出用弹性匹配的方法进行基于形状的图像检索,变形模板由初始模板和变形函数叠加而成,但是这种方法的计算和匹配复杂度都比较高,不适用于在线检索。Mokhtraian等提出的CSS(curvature scale space)方法是一种对平面曲线曲率零交叉点的多尺度描述,并将图像转化为匹配的尺度空间图像,这种方法的复杂度也较高。这几种基于边界结构的方法能够较好地处理图像中的遮挡问题和局部相似问题,但计算复杂度都比较高,而且容易忽略图像中的全局形状特征。另外,边界的变化可能导致局部结构的变化,从而影响最后的检索效果。

基于区域的表示方法将区域形状当作一个整体看待,描述了区域像素的统计分布特征,有效地利用了区域内的所有像素,因而受噪声和形状变化的影响相对较小。基于区域的方法中常用面积、重心偏心率等来对区域形状做最基本的描述,使用最普遍的描述方法是矩方法。矩的优点是能够直接作用于包含感兴趣目标的目标区域而不需事先把目标分离出来。Hu证明了利用二阶和三阶中心几何矩组成的矩组,在物体平移、缩放和旋转时保持不变。Hu不变矩组存在的主要问题是少量的低阶矩包含的信息还不足以充分地描述形状特征,而高阶矩又比较难取得。Khotanzad等将Zernike矩用于图像的识别,取得了不错的效果。Teh等比较了各种正交矩和非正交矩,发现Zernike矩性能更为出众。常用的形状描述符还有基于内角的形状描述符,网格描述符(grid descriptor),基于隐马尔可夫场的表示方法(hidden Markov models)及刘进等对图像不变矩的推广不变矩等。

近年来,小波变换也被用于图像的形状特征分析中,如杨翔英等提出采用小波轮廓描述符来表示图像的轮廓特征,姚玉荣等提出采用小波模极大值来提取图像中的多尺度目标边缘信息,然后采用多尺度的不变矩来度量图像中目标形状的相似性等。

形状表示法中Fourier边界描述子,CSS方法和Zernike矩已经被MPEG-7实验模型定义为视觉形状描述子。尽管描述形状的描述子各种各样,但是利用形状特征进行图像检索是基于内容的图像检索中最为困难的检索方法,因为图像中目标的边界提取本身就存在很多问题,定义简单实用的形状特征也非常困难。上面介绍的各种方法都存在着这样或那样的问题,限制了它们的使用。

4)空间关系特征

图像中对象所在的位置和对象之间的空间关系同样是图像检索中非常重要的特征。上面提出的颜色、纹理和形状等多种特征反映的都是图像的整体特征,无法体现图像中包含的对象或物体。对于包含多目标的图像,目标之间的空间关系是一种描述图像内容的基本特征。基于空间关系特征的图像检索方法正好可以解决这一问题。基于空间位置关系的图像检索是以图像中对象的空间位置关系作为检索的关键。由于利用图像对象间的空间位置关系来区别图像,符合人们识别图像的习惯,而且空间关系特征很容易与其他的视觉特征相结合,实现多视觉特征的图像综合检索,所以很多研究人员从图像中对象空间位置关系出发,着手对基于对象空间位置关系的图像检索方法进行了研究。

由于要将图像的空间关系转换为图像相似性的定量度量是一个较为困难的问题,所以目前所采用的方法主要是定性的方法。描述物体间的空间关系可以分为两类:一类首先需要对图像自动进行目标分割和识别,划分出图像中所包含的对象或颜色区域,然后根据这些区域对图像索引,即将图像转化成采用二维编码的符号图像,描述物体间的关系是通过一系列的算子上、下、左、右等,这样图像的检索问题就变成了一个二维串匹配的问题;另一类方法则简单地将图像均匀划分为若干规则子块,对每个图像子块提取特征建立索引。

第一类方法中的图像空间关系特征主要包括二维符号串、空间四叉树和符号图像。美国匹兹堡大学提出用二维符号串(2D-String)来表示图像的空间关系,但是2D-String表示的空间关系比较简单,而实际中的空间关系要复杂得多,针对这一问题有人提出了广义2D-String方法,最后由Nabil综合了2D-String方法和二维平面中对象之间的点集拓扑关系,提出了2D-PIR检索方法。这种方法进行图像相似性度量时并未考虑两幅图像中共有对象的数目,只是用图像中对象之间的拓扑关系、图像中对象在方向投影的间隔关系、图像中对象之间角度关系来描述图像中对象之间的空间关系。

第二类方法是将图像预先均匀分成若干可能重叠的子块,然后分别提取每个子块的各种特征,这样可以避免图像自动分割的困难,同时又能提供一些有关图像区域空间关系的基本信息。在检索中,我们根据特征计算图像的相应子块之间的相似度,然后通过加权计算总的相似度。类似的方法还有四叉树方法,即将整个图看成四叉树的结构,用每一个分支都拥有的直方图来描述颜色特征。此方法可以支持对象空间关系的检索,可通过把图像分割成若干个子块,在每个子块中匹配相应的特征来实现。

分块的方法从概念上来说相对简单,但这种普通规则的分块并不能精确地给出局部色彩的信息,而且计算和存储的代价都比较大。因此,在实际中这类方法常常是和其他方法相结合来应用。

5)语义特征

上述特征都属于图像特征中的底层特征,在实际应用中,人们主要是根据图像的含义进行图像检索,而不是根据图像的颜色、纹理、形状等底层特征进行提取和特征匹配。这些含义就是图像的高层语义特征,它包含了人对图像内容的理解,这种理解是无法直接从图像的视觉特征即底层特征获得的,而要根据人的知识来判断。

语义特征一般用文字描述,可以用传统的数据库方法和基于知识的模型来管理和检索。目前只是用半自动或手动的方法提取语义特征,人们主要根据图像的含义直观地进行分类并判别图像满足自己的需要程度。图像必须附加上包括语义在内的各种内容信息,即图像语义的有效描述方式和语义检索系统的语义处理方法,有了这些信息才能做到真正意义上的语义检索。

目前基于语义图像检索方法分为两大类:一是自动语义标注,该方法必须利用已标注过的图像数据库作为训练集,采用机器学习或者统计学习方法对图像进行标注;二是基于语义空间的图像检索方法,该方法不需要已标注过的图像数据库,而是通过相关反馈的方法创建高层语义空间,进而创建底层特征空间和该语义空间之间的映射,然后将待查图像转变为语义空间中的表示形式,从而实现图像在语义空间中的检索。

目前图像的底层特征与高层语义表达之间还存在着巨大的“语义沟”(semantic gap),“语义沟”问题始终是图像检索中的核心问题。近年来兴起的相关反馈和机器学习技术也是为了解决这一问题而提出的。但是到目前为止,这一问题仍然是巨大的难题。完全解决这一问题需要对人类视觉感知原理等问题的研究取得突破。基于人类视觉感知的图像检索计算模型是一个很有希望的研究方向,同时认知心理学方面的研究必不可少。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈