首页 理论教育 城市遥感影像特征描述:原理、方法与应用

城市遥感影像特征描述:原理、方法与应用

时间:2023-10-26 理论教育 版权反馈
【摘要】:城市遥感影像由于包含的地物种类繁多,且同种地物形式多样,如建筑物的轮廓存在矩形、圆形、多边形等多种形状,限制了形状特征在遥感影像检索中的应用。

城市遥感影像特征描述:原理、方法与应用

影像特征是CBRSIR成功与否的前提,是将原始影像与相对抽象的影像特征关联起来的手段,影像特征选择以及特征描述方法的合理与否直接影响检索的准确率。

传统的CBRSIR方法大多依赖于人工设计的低层视觉特征,如颜色、纹理、形状等,需要研究人员利用专业知识设计相应的特征描述方法,这些特征属于手工特征。与手工特征相反,近些年,兴起于机器学习领域的深度学习技术通过构造多层网络结构对影像内容进行逐级特征表达,进而能够挖掘数据中的隐含特征模式,实现特征的自动学习,在一定程度上解决了传统的CBRSIR特征提取问题。以下从传统的城市遥感影像检索方法和近些年基于深度学习的城市遥感影像检索方法两个方面,介绍CBRSIR常用的影像特征描述方法。

1.传统的城市遥感影像检索特征

传统的城市遥感影像检索方法通常是依赖于颜色、纹理、形状等低层视觉特征,能否利用这些描述子准确对影像内容进行描述直接决定了最终的检索效果。

1)城市地物颜色特征

颜色(光谱)特征是遥感影像检索中最基本的特征之一,常用的颜色特征描述方法包括颜色直方图、累积直方图、颜色矩、颜色相关图以及颜色一致性向量等。与其他的视觉特征相比较而言,颜色特征受影像本身的形变和视角等方面的影响较小,并且特征的提取也相对容易。但对于城市遥感影像检索来说,颜色特征存在两个方面的缺陷:一方面,颜色特征难以和空间特征相关联,尤其对于影像内容比较丰富和复杂的情况,单独使用颜色特征很难获得令人满意的检索效果;另一方面,遥感影像存在同物异谱和异物同谱现象,这种情况下颜色特征难以有效区分同类别或者不同类别的地物。

以颜色直方图为例,通过将颜色空间离散化并统计不同颜色出现的频率即可得到。假定I(x,y)表示图像在像素(x,y)处的颜色值,m和n分别表示图像宽和高,则图像的颜色直方图可以表示为

式中,c为颜色的灰度级;δ为狄拉克函数。

停车场和网球场作为城市典型地物之一,对其影像进行各通道颜色直方图计算,得到结果如图12-3所示,从图中可以看出停车场R、G、B三通道直方图重叠度较高且峰值处于直方图左侧,说明其颜色以灰色为主且影像整体偏暗。网球场三通道颜色直方图中峰值处于直方图右侧,说明影像整体偏亮,同时三通道颜色直方图错开较多,说明影像颜色丰富同时影像中红色成分占多。

2)城市地物纹理特征

纹理特征是影像的另一种重要的低层视觉特征,它是反映物体表面基本属性的内在特征,是一种不依赖于颜色或亮度的、反映影像中同质现象的视觉特征,其生理基础在于人眼视觉皮层中特定的视觉细胞与空间特定频率特性及方向相对应,这种处理模式正好与同时具有空域和频率局部化特性的多尺度纹理分析方法相一致。纹理特征描述方法可分为统计法、结构法、频谱法和模型法四大类。

图12-3 停车场、网球场原始影像及其颜色直方图

统计法是利用像素间的局部相关性来刻画纹理,主要适用于分析如木纹、森林、山脉、草地这样纹理细腻而且不规则的物体,典型代表方法包括灰度共生矩阵、灰度-梯度共生矩阵。结构法的基本思想是假定复杂的纹理模式由简单的纹理基元(基本纹理元素)以一定的规律形式重复排列组合而成,比较典型的方法有Voronoi多边形方法、纹理基元共生矩阵算法等。但由于实际的纹理大多是无规则的,导致结构法在实际应用中受到很大限制。频谱法主要借助各种变换算法,利用影像的频率特性来描述纹理特征,关键是寻求一种可逆的线性变换,用一组不相关的数据(通常是一组系数)来代替影像数据,并将这些系数按对影像主观质量影响的重要程度排序,用少量高效的系数进行影像的特征描述,代表方法包括小波变换和Gabor变换等。模型法是以影像的构造模型为基础,通过模型参数来定义纹理,模型的参数决定纹理的质量,主要问题是估计模型参数,使其所表示的纹理影像逼近原纹理影像,典型方法包括随机场模型法,如马尔可夫随机场(MRF)模型法和Gibbs随机场模型法。

对于遥感影像来说,地物的纹理特征较颜色特征更为稳定,这些特性使得纹理特征成为遥感影像检索中研究最多、应用最广的低层视觉特征,但由于城市遥感影像具有内容复杂性和结构多样性特点,地物的纹理会存在不连续甚至断裂问题,降低了纹理特征的检索性能。

以局部二进制模式(Local Binary Pattern,LBP)为例,其通过计算每个像素与邻域内其他像素的灰度差异来描述图像纹理的局部结构,对于图像中任意一个3×3的窗口,比较窗口的中心像素与邻域像素的灰度值。若邻域像素灰度值大于或等于中心像素的灰度值,则该像素位置赋值为1,反之,赋值为0。对于阈值处理后的窗口,将其与权值模板的对应位置元素相乘求和,即可得到窗口中心像素的LBP值。图12-4为停车场及网球场影像的LBP纹理特征图,从图中可以看出车辆及网球场地的纹理具有明显差异,这也为之后的相似性度量提供了依据。

图12-4 停车场、网球场原始影像及其LBP纹理特征图

3)城市地物形状特征

形状特征往往与对象分割相结合,含有一定程度的语义信息,一般分为轮廓特征的提取和区域特征的提取。相对于颜色或纹理等低层特征而言,形状特征属于影像的中间层特征,是描述高层视觉特征(如目标、对象)的重要手段。但由于物体形状的自动获取比较困难,因此,基于形状的检索一般仅限于容易识别的物体。城市遥感影像由于包含的地物种类繁多,且同种地物形式多样,如建筑物的轮廓存在矩形、圆形、多边形等多种形状,限制了形状特征在遥感影像检索中的应用。(www.xing528.com)

基于形状特征的影像检索需要解决三个问题:一,形状通常与特定目标有关,包含一定的语义信息;二,对目标形状参数的获取一般要依赖于影像分割的效果;三,需要保证形状特征不受影像平移、旋转、缩放等变换的影响。常用的形状特征描述方法包括Freeman链码、Hu不变矩、Zernike矩等。

以Hu不变矩为例,其计算公式如下文式(12-45)所示,通过计算影像Hu矩阵得到其特征向量,将输入影像与特征库影像Hu矩阵进行距离计算并排序,返回得到相似影像,如图12-5所示,Hu(a),Hu(b),Hu(c)分别为(a),(b),(c)三幅影像计算的Hu矩阵,通过计算可以得知(a)和(b)两幅影像的距离更近。

图12-5 影像Hu矩阵计算

2.基于深度学习的城市遥感影像特征描述

2006年,加拿大多伦多大学Hinton教授等提出通过“逐层初始化”算法来训练深层网络,该研究促进了深度学习技术的快速发展,使其逐渐成为一个极具潜力的研究热点并被应用于影像检索领域(Lecun et al.,2015)。基于深度学习的城市遥感影像检索方法能够利用深度学习模型通过学习的方式自动从数据中学习影像特征,进而将学习的特征用于影像检索,根据是否需要标注数据可分为无监督的特征学习方法和卷积神经网络

1)基于无监督特征学习方法的城市遥感影像特征描述

无监督特征学习方法能从大量的无标注数据中自动学习影像特征,对于缺少标注数据的遥感领域来说,这是其一大优势,常用的无监督特征学习方法包括稀疏编码(Sparse Coding)、自编码(Auto-Encoder)以及基于自编码的改进方法,包括降噪自编码(Denoising Auto-Encoder,DAE)、收缩自编码(Contractive Auto-Encoder,CAE)等。无监督的特征学习方法在遥感影像检索中应用较多,例如,Li等(2012)通过无监督的特征学习与联合度量融合方法实现了基于内容的遥感影像检索;Wang等(2012)提出了基于图的三层特征学习方法用于影像检索;张洪群等(2017)基于稀疏自编码在大量未标注的遥感影像上进行特征学习得到特征字典,并利用学习的特征字典通过卷积和池化的方式得到影像的特征图,实现了无监督的特征学习;Tang等(2018)利用卷积自编码器进行特征学习,并结合视觉词袋(Bag of Visual Words,BoVW)模型对学习的特征进行编码处理实现了高分辨率遥感影像检索;Zhou等(2015)提出了SIFT自编码网络用于高分辨率遥感影像检索,与像素自编码相比,其检索效果更好。

相比传统的人工设计的低层特征,无监督的特征学习方法不仅能从无标注数据中直接学习影像特征,而且能有效地改善检索结果。然而,这些无监督的特征学习模型大多是浅层的网络,导致模型学习的特征区分度低,最终造成检索的准确度较传统的基于人工设计特征的检索方法提升得不高。

以卷积自编码器(Convolutional Auto-Encoder)为例,其利用反向传播算法,尝试通过学习使得网络输出尽可能接近网络输入,网络结构如图12-6所示,包含两部分:编码器(encoder)和解码器(decoder)。在训练过程中,网络通过编码学习输入影像的压缩表示,然后通过解码重构输入影像,输入影像在网络中的变化如图12-7所示。

图12-6 卷积自编码器网络结构

图12-7 卷积自编码器各网络层特征图

2)基于卷积神经网络的城市遥感影像特征描述

不同于无监督的特征学习方法,卷积神经网络(CNN)是一种有监督的深度学习方法,通常包含几十甚至上百个网络层,因而能够学习更高层次的影像特征。2012年,Krizhevsky等构造的卷积神经网络AlexNet在影像识别数据库ImageNet(Deng,2009)上取得了领先于传统方法和浅层网络的识别结果。自此以后,CNN逐渐被用于各种影像识别任务,被认为是影像识别领域最成功的一种深度学习模型。

CNN虽然能够学习影像的高层特征,但训练一个深层的CNN模型需要大量的训练数据。数据标注不仅是一项耗时、费力的工作,而且对于很多领域(如遥感领域)来说,标注数据是稀缺的。此外,为了加速模型训练,计算机需要配置高性能硬件设施。因此,在实际应用中往往通过特征迁移方法来解决标注样本不足的问题,包括将ImageNet训练的CNN视为特征提取器和用目标数据集对预训练的CNN进行微调。例如,Penatti等(2015)探索了将基于ImageNet等自然影像上训练的CNN模型迁移到遥感影像上的可行性,多组实验结果表明CNN学习的特征泛化能力强,能够应用到不同领域;葛芸等(2018)提取在ImageNet上预训练的四种网络中不同层次的输出值作为高层特征,并对高层特征进行高斯归一化,然后采用欧氏距离作为相似性度量进行遥感影像检索;Napoletano(2018)利用预训练的CNN模型从全连接层提取影像特征用于检索,并在两个标准数据集上与传统的手工特征进行了比较,实验结果证明CNN提取的特征取得了更好的检索结果;Ye等(2018)利用微调的CNN进行特征提取,并基于加权距离进行相似性度量,提出了一种简单、有效的遥感影像检索方法;Zhou等(2017)则基于预训练的CNN网络提出了低维的卷积神经网络结构,不仅待学习的参数更少,而且可以直接学习低维的影像特征。

以ResNet-18为例,其网络结构如图12-8所示,输入影像在不同网络层特征图如图12-9所示,通过网络逐层提取,影像特征尺寸变小且更加抽象。

图12-8 ResNet-18网络结构

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈