随着技术的革新和硬件的发展,城市地表要素的提取技术由传统的随机森林、支持向量机等机器学习方法逐渐转到深度学习方法上来。语义分割网络是由图像场景分类网络演化而来,图像场景分类关注的是该图像是否含有某类对象,而语义分割则关注哪些像素属于某类对象。图像语义分割的目标在于标记图片中每一个像素,根据图像本身的纹理、颜色以及场景等信息,将每一个像素与其表示的类别对应起来。因为会预测图像中的每一个像素,所以一般将这样的任务称为密集预测,如图10-10所示。
图10-9 测试数据的分类结果
图10-10 图像语义分割示意图
对高分辨率遥感图像进行语义分割,这在遥感图像处理中是重要一环,城市地表要素提取的本质就是将不同类型要素从遥感图像中区分出来。遥感图像包含的地物信息丰富、目标结构复杂、背景多变,传统的处理方法主要利用图像的像素或者区域的纹理、颜色等信息差异来达到分割物体的目的。近年来,由于深度学习,特别是深度卷积神经网络的飞速发展以及广泛应用,可以自适应地提取遥感图像中浅层、深层特征,因此,将语义分割网络应用到高分辨率遥感的城市地表要素提取具有重要的意义。(www.xing528.com)
针对这项任务简单地构建卷积神经网络架构的方法是简单地堆叠大量卷积层(用same填充保留维度)后输出最终的分割映射。通过特征图的接连转换,直接从输入图像学到相对应的分割映射;然而,在整个网络中要保留完整分辨率的计算成本是很高的,如图10-11所示。
图10-11 全分辨率语义分割网络示意图
回顾语义分割所运用的深度卷积神经网络,前期的卷积层更倾向于学习低级概念,而后期的卷积层则会产生更高级(且专一)的特征图。为了保持表达性,一般而言,当我们到达更深层的网络时,需要增加特征图(通道)的数量。对图像分类任务而言,这不一定会造成什么问题,因为我们只需要关注图像里面有什么,而不是目标类别对象的位置。因此,我们可以通过池化或逐步卷积(即压缩空间分辨率)定期对特征图进行下采样以缓和计算压力。常用的图像分割模型的方法遵循Encoder-Decoder结构,在这个结构中,我们对输入的空间分辨率下采样,产生分辨率更低的特征图,通过学习这些特征图可以更高效地分辨类别,还可以将这些特征表征上采样至完整分辨率的分割图。针对遥感影像的语义分割网络,往往都是借鉴自然图像领域内的卷积神经网络结构,目前基于Encoder-Decoder结构的网络主要有FCN、UNet、SegNet、DeepLab和PSPNet等。针对城市地表要素的分类,需要构建城市地表要素的样本集,利用上述网络采用端到端的训练方式训练网络模型,从而对城市地表要素完成场景分类。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。