首页 理论教育 智能化大数据时代遥感图像检索

智能化大数据时代遥感图像检索

时间:2023-06-26 理论教育 版权反馈
【摘要】:图1-3相似性度量模型对图像检索性能的影响研究人员为克服语义鸿沟问题开展了大量研究。其中,机器学习被认为是能够解决语义鸿沟的可行方案。而遥感图像大多是包含多种地物类型的复杂场景,单个标签不足以体现遥感图像丰富的场景语义信息,基于单标签的检索难以满足用户的精细检索需求。

智能化大数据时代遥感图像检索

传统的图像检索在满足实际应用需求时存在很大的挑战,最大的难题就在于“语义鸿沟”,即基于图像原始像素的低层表达与人眼所感知和理解的高层语义之间存在的差异。语义鸿沟不仅体现在图像的特征表达,而且也体现在特征向量相似性度量。以图1-2为例,图1-2(a)所示的两幅图像语义类别相同,但二者的低层视觉特征(如直方图)具有明显的差异;图1-2(b)所示的两幅图像主观感觉相似,低层视觉特征也相似,却属于不同的语义类别。

图1-2 传统图像检索的语义鸿沟问题示例

除了图像的内容表达,相似性度量模型也是影响图像检索系统性能的关键因素。以图1-3为例,相似性度量时选择预先定义的距离函数,在实际应用中,与人类的视觉感知有很大的差异;而且选择不同的距离函数,检索结果也往往不同。其中,红色框表示错误检索类别。

图1-3 相似性度量模型对图像检索性能的影响

研究人员为克服语义鸿沟问题开展了大量研究。其中,机器学习被认为是能够解决语义鸿沟的可行方案。机器学习既是人工智能的一个研究分支,又是实现人工智能的手段。20世纪70年代中期以后,人工智能研究从“推理期”发展到“知识期”,大量专家系统问世,并在很多研究领域取得成果,但是专家系统面临知识工程瓶颈,即需要人把知识交给计算机,而这是很困难的。在这样的背景下,一些学者有了“让机器自己能够学习知识”的想法。基于神经网络的机器学习之所以在21世纪重新迎来发展机遇,并以深度学习之名在计算机科学和计算机应用技术领域掀起浪潮,得益于大数据时代和硬件技术的革命。深度学习,狭义上讲,就是由很多层构成的神经网络。从理论的角度讲,深度模型的层数越深、参数越多、模型复杂度越高、容量越大,就越有可能完成更复杂的学习任务。但是如果没有足够大量的数据样本和强大而低廉的计算能力,则模型的训练效率低,且很容易陷入过拟合。由摩尔定律带来的硬件运算能力的大幅提升,有效改善了训练低效问题,前所未有的大量数据降低了过拟合的风险,使得过去机器难以完成的任务成为现实,出现了一系列强大的深度学习框架(如Caffe、Torch、Tensorflow、CNTK、Apache MXNet等),各类深层神经网络模型不断推陈出新。此外,神经学科和心理学领域的研究也不断进步。这些成果为近十年来深度学习取得长足发展提供了坚实的动力,使之成为人工智能领域中最能体现智能性、发展最快的研究分支。

利用人工智能技术特别是深度学习实现遥感图像检索,其智能性主要体现在以下几方面:

1.特征提取智能化——从特征提取到特征学习

传统的图像检索研究在描述图像的内容表达时,通常由人类专家来设计特征提取方法,特征的好坏对泛化性能有很大的影响。深度学习模型通过构建深层的神经网络结构,堆叠多个隐藏层,实现对输入信号逐层加工,即通过多层处理,逐渐从初始的低层特征表示转化为高层特征表示,从而用简单模型完成复杂任务。这是一个特征学习的过程,而且参数越多的网络模型能够完成的任务越复杂。与自然图像相比,遥感图像的属性多样性(地物表面属性和社会属性)和应用多样性,对遥感图像的特征表达提出了更高的要求。如图1-4所示,用户感兴趣的可能是单一地物目标,也可能是多种目标综合体,如机场、港口、停车场等。因此,只有通过学习构建遥感图像的逐层抽象和空间约束模型,才能满足遥感图像检索的多样性需求。从被动的特征提取到主动的特征学习,体现了遥感图像特征表达向智能化方向的迈进。

图1-4 遥感图像的检索需求多样性(www.xing528.com)

2.度量智能化——从预设距离函数到度量学习

传统的图像检索研究在度量查询图像与候选图像之间的相似性时,通常采用某种预定义的距离函数,如欧氏距离、Minkkowsky距离、余弦距离等。然而,遥感数据的大场景成像特点决定了同一幅遥感图像往往包含多种地物类型且背景信息复杂,而同一类地物在不同成像条件获取的图像可能呈现出不一样的视觉特征,并且具有十分明显的尺度效应;此外,不同的光照条件、大气参数、季节、天气参数都会对遥感图像特征产生影响。由这些因素产生了明显的类内差异和高度的类间相似,使得采用预定义的距离函数来度量图像之间相似性时,会与人的感知存在较大差异,如图1-5所示。

图1-5 遥感图像的类内差异和类间相似[2]

度量学习根据不同的任务自主学习出一种最优的度量模型,可以实现在特定任务条件下,相同语义类别的图像之间距离最小化,而不同语义类别的图像之间距离最大化。随着深度学习的发展,人们提出了融合深度学习和度量学习的深度度量学习模型,既充分利用了深度神经网络强大的特征学习能力和端到端训练的优势,又能够有效克服传统度量学习在处理类别数多而类内样本数有限任务时的局限性,为解决复杂场景遥感图像检索的相似性度量带来了令人期待的效果。

3.检索模式智能化——从单一检索到跨源跨域多样化检索

传统的遥感图像检索多为单一检索,即数据集包含的往往是单一来源的数据(如可见光图像),一幅图像通常只标注一个语义类别标签(如河流、道路、密集建筑等)。而遥感图像大多是包含多种地物类型的复杂场景,单个标签不足以体现遥感图像丰富的场景语义信息,基于单标签的检索难以满足用户的精细检索需求。此外,随着传感器技术的发展,使得可获取的多源遥感数据大幅增加,比如同一个区域可能包含不同类型的数据,如全色影像、多光谱影像和SAR影像;而且,随着智能终端的迅速普及,空间数据范畴,无论是在深度上还是广度上,都有了明显的拓展,这种拓展对于以更便捷的方式获取广义空间信息服务具有深层次的意义。幸运的是,人工智能技术在语音识别、自然语言处理、图像描述生成等领域的突破,为遥感数据的跨源跨域多样化检索提供了技术支撑。在这样的技术和应用背景下,仅以某种单一模态数据(如图像)作为查询条件的传统检索模式,已不能满足实际需求,研究跨文本、语音、图像、视频等多种模态的跨源跨域多样化检索(如图1-6所示)的现实意义不言而喻。

图1-6 检索模式多样化

早在21世纪初,就有学者关注到跨模态研究的意义并做了一些探索性工作,但当时研究的侧重点基本都是基于图像-文本两种模态,而且研究的基本思路大多是将每种模态的所有样本映射到公共特征空间,再基于公共特征空间的表达实现跨模态检索,映射过程仍存在语义鸿沟。在遥感领域,自2018年以来出现了一些利用深度神经网络解决遥感图像跨模态检索的研究工作,例如通过构建多模态判别性共享特征空间保持多模态的语义对齐,对研究遥感大数据的跨源跨域多样化检索具有借鉴意义。

人工智能时代遥感图像检索的智能化不仅仅体现在特征提取、相似性和检索模式三个方面。我们知道,尽管深度学习可以自动学习到有用的特征,使得很多计算机视觉任务摆脱了对特征工程的依赖,但是随着网络性能的不断上升,网络结构越来越复杂,性能提升会越来越不容易。自2016年起出现了一些关于神经结构搜索(neural architecture search,NAS)的研究,这种自动机器学习技术(auto machine learning,AutoML)的目标是当给定数据和任务时,无需任何人工干预,让计算机自动搜索或者设计出具有强大学习能力和泛化能力的简单易用的网络模型,而不是依赖众多超参数,从而有效地降低了深度学习模型的设计和实现成本。显然,这种完全不依赖人工干预而自动搜寻最合适的网络模型也极大地体现了大数据处理和分析的智能化。

总之,传统图像检索向智能化图像检索的发展,无论是从被动的人工设计特征到主动的特征学习,从预设距离函数到度量学习,还是从单一模式的检索到多标签跨模态的多样化检索,从精心设计深度网络模型到无需调参的模型自动搜索和构建,这个发展过程既是技术进步的必然趋势,也充分体现了检索思维的革新。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈