首页 理论教育 基于卷积神经网络的城市土地分类

基于卷积神经网络的城市土地分类

时间:2023-10-26 理论教育 版权反馈
【摘要】:近年来,深度学习尤其是卷积神经网络快速发展,其能够提取隐藏在影像中的深层的抽象特征,因而被广泛引用于图像分类领域。图10-5是这些标准网络的基础结构。Vgg16和Vgg19是最广泛使用的VggNet网络。Vgg16具有16个隐藏层,其中包括13个卷积层和3个全连接层。此外,VggNet删除了局部响应规范化层。由于网络深度的增加,退化问题出现在深度神经网络中。

基于卷积神经网络的城市土地分类

近年来,深度学习尤其是卷积神经网络(Convolutional Neural Network,CNN)快速发展,其能够提取隐藏在影像中的深层的抽象特征,因而被广泛引用于图像分类领域(Krizhevsky et al.,2012)。目前CNN网络的基本构成有卷积层(Convolutional Layers)、池化层(Pooling Layers)、全连接层(Fully-connected Layers)及其他改进的模块。

常用的典型的CNN网络有AlexNet(Krizhevsky et al.,2012)、VggNet系列(Simonyan et al.,2014)、InceptionNet系列(Szegedy et al.,2014)、ResNet系列(He et al.,2016)等。图10-5是这些标准网络的基础结构。

图10-5 目前一些标准的CNN网络结构

AlexNet具有5个卷积层,3个池层,3个局部响应规范化层和3个全连接层。输入数据是大小为227×227×3的一组图像。激活函数是ReLU,其将前面神经元层的输入映射到下一层。最后一个完全连接的层是具有4096个特征的一维矢量。AlexNet的分类器是softmax。

VggNet具有5种类型的网络,是AlexNet的深入研究和改进的网络。VggNet的框架比AlexNet的框架更简洁,更简单。VggNet具有用于卷积层的小滤波器,大小为3×3,用于合并层的过滤器为2×2。某些小型过滤器的组合比大型过滤器具有更好的训练性能。此外,VggNet验证了通过不断加深网络结构可以提高性能。Vgg16和Vgg19是最广泛使用的VggNet网络。Vgg16具有16个隐藏层,其中包括13个卷积层和3个全连接层。Vgg19具有19个隐藏层,其中包括16个卷积层和3个全连接层。ReLU是Vgg16和Vgg19的激活函数。此外,VggNet删除了局部响应规范化层。

GoogleNet通过增加层深度和起始模块,克服了诸如梯度消失、梯度爆炸以及AlexNet和VggNet的过拟合之类的问题。初始模型可以更有效地利用计算资源,并在相同计算量下提取更多特征。初始模型涉及两个方面:1×1卷积模块和多尺度卷积组合模块。大小为1×1的卷积模块不仅减少了数据量,而且还修改了线性函数ReLU。另外,减小数据尺寸对特征没有影响。使用具有不同大小的滤波器对输入数据进行卷积或合并以提取不同特征的多尺度卷积。它还可以将数据卷积在不同的过滤器上来加速网络的收敛。GoogleNet有许多派生网络。GoogleNet最受欢迎的网络是Inception_v3,如图10-5(D)所示。

由于网络深度的增加,退化问题出现在深度神经网络中。问题在于某些深层网络的性能要比没有那么深层的网络的性能差。研究人员提出了使用跳跃连接来解决问题的残差学习方法。ResNet的核心思想是改变网络结构的学习目的。最初了解的是通过卷积直接获得的图像特征H(X)。现在,它学习图像和特征的残差H(X)-X。原因是残余学习比直接从原始函数学习要容易。ResNet的结构如图10-5(E)所示。

CNN的分类过程实际上属于监督分类,即需要人工标记的样本训练网络。目前开源的遥感场景数据集主要包括以下4种。

1.UC Merced Land Use Dataset

这是一个以研究为目的包含21个土地利用类型的遥感影像数据集。每个类别有100张图像,每张图像的大小是256×256像素。图像的分辨率是1in。这些类别包括:农业类(Agricultural)、机场(Airplane)、棒球场(Baseball Diamond)、沙滩(Beach)、建筑物(Buildings)、树林(Chaparral)、密集居民区(Dense Residential)、森林(Forest)、高速公路(Freeway)、高尔夫球场(Golf Course)、港口(Harbor)、路口(Intersection)、中型住宅(Medium Residential)、活动房屋公园(Mobile Home Park)、立交桥(Overpassial)、停车场(Parking Lot)、河流(River)、跑道(Runway)、稀疏住宅区(Sparse Residential)、储油罐(Storage Tanks)、网球场(Tennis Court)。

2.WHU-RS19

该数据集是从谷歌卫星图像上获取的,共包含19个类别。这些类别主要有机场(Airport)、沙滩(Beach)、桥梁(Bridge)、商业区(Commercial)、沙漠(Desert)、农场(Farmland)、足球场(Football Field)、森林(Forest)、工业区(Industrial)、草地(Meadow)、山脉(Mountain)、公园(Park)、停车场(Parking)、池塘(Pond)、港口(Port)、火车站(Railway Station)、居民区(Residential)、河流(River)、高架桥(Viaduct)(图10-6)。

图10-6 WHU-RS19数据集类别实例(www.xing528.com)

3.RSSCN7

该数据集包含7个场景,包括草地(Grass)、农田(Field)、工业区(Industry)、河湖(River Lake)、森林(Forest)、居民区(Residential)、停车场(Parking)(图10-7)。每个类别是400张来自谷歌地球的影像,共2800张。每个类别包含4个尺度,每个尺度有100张图像,图像的大小为400×400像素。

4.SIRI-WHU

该数据集包含12个类别,主要用于科研。这些类别主要包括农业区(Agriculture)、商业区(Commercial)、港口(Harbor)、闲置土地(Idle Land)、工业区(Industrial)、草地(Meadow)、立交桥(Overpass)、公园(Park)、池塘(Pond)、住宅(Residential),河流(River),水域(Water)(图10-8)。每个类别包含了200个影像,影像的分辨率为2m,大小为200×200像素。

图10-7 RSSCN7数据集类别实例

图10-8 SIRI-WHU数据集类别实例

此外,还有其他的更大型、种类更丰富的数据集。表10-1为目前公开的遥感场景分类的典型数据集。

表10-1 遥感场景分类数据集

本节利用AlexNet网络,在SIRI-WHU数据集上进行训练。我们将数据集的60%用于训练,20%用于验证,20%用于测试(Lv et al.,2018)。目前可选用的成熟平台有Tensorflow、Pytorch、Caffe等。Windows10和Ubuntu均支持Tensorflow,可利用原生的Tensorflow在Windows10系统下进行实验。

由于数据量有限,我们可以选择迁移学习的方式训练AlexNet,即利用已经训练好的网络参数并加载,并对全连接层的参数进行重新训练。训练结果表明,CNN能够提取影像中存在的深度特征,对复杂的遥感场景具有很高的适应性。AlexNet测试分类的精度可达96%,明显优于目前现有的方法。图10-9显示了AlexNet测试数据的测试结果。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈