首页 理论教育 跨模态检索:多源遥感图像与非遥感数据

跨模态检索:多源遥感图像与非遥感数据

时间:2023-06-26 理论教育 版权反馈
【摘要】:近年来,深度学习在各种模态数据处理上的成功,为将其用于建模多模态数据、发展跨模态信息检索提供了技术支撑。基于深度学习的跨模态检索已经成为研究的主流和趋势。即将跨模态与哈希技术相结合,将多模态数据映射到公共的汉明空间,以满足遥感数据跨模态检索的低内存、高效率需求。

跨模态检索:多源遥感图像与非遥感数据

人们很早就意识到了跨模态检索的重要性,跨模态检索的研究迄今已经有几十年的历史。跨模态检索的需求伴随着多媒体检索技术的发展过程。比如,基于文本检索图像就体现了跨模态检索需求,只不过由于匹配的是查询关键词和图像的标注,从技术的角度看,仍属于单模态检索。随着传感器技术和互联网的发展,飞速增长的多模态数据带来了大量的跨模态检索应用需求。但是由于跨模态数据之间存在异构性,不同模态的数据往往分布在不同的特征空间上,因此跨模态检索研究的意义和难度显而易见,特别是在遥感领域,遥感数据本身具有的多样性、复杂性和海量性,使得遥感数据的跨模态检索研究更具挑战性。

跨模态检索最大的难点在于如何克服模态之间的鸿沟,即不同模态数据的低层表示不一致以及由此带来的相似性匹配问题。因此,如何在多种模态数据之间建立关联,是跨模态检索研究的关键。基本的研究思路:一是通过学习一个多模态数据的共享表示层,基于共享表示层建模多个模态数据之间的关联;二是将各种不同模态的数据经过抽象侯映射到一个公共表示空间,在该公共空间建立不同模态之间的关联,可以分为单模态学习和关联学习两个部分。

近年来,深度学习在各种模态数据处理上的成功,为将其用于建模多模态数据、发展跨模态信息检索提供了技术支撑。基于深度学习的跨模态检索已经成为研究的主流和趋势。很多单模态深度学习模型,如深度自编码器、深度信念网络、深度玻尔兹曼机等,已被扩展成多模态的模型,以适应跨模态检索需求。深度学习用于建模多模态数据的优势包括:

(1)有效克服多模态数据低层表示的异构性。不同模态数据的低层表示存在很大的差异,难以在数据之间建立的关联。而采用深层网络模型,不同模态的数据经过了多层非线性变换,在抽象的高层表示之间建立关联则会容易得多。

(2)深度学习网络模型往往具有通用性。针对不同模态的数据,深度学习网络模型采用了类似的基本单元网络结构,这些基本单元和网络结构在处理不同模态数据时,自动学习不同模态数据的特征,具有较好的通用性,便于建立统一的多模态数据模型。

目前针对自然图像的跨模态检索研究已经取得一些卓有成效的进展(可参见文献[2][3][4][5][6]),但是遥感领域的跨模态检索研究仍相当有限,具体包括:卢孝强团队[7][8]提出了一种新的深度跨模态遥感图像-语音检索方法(deep image-voice retrieval,DIVR),通过利用空洞卷积模块捕获遥感图像和语音的多尺度上下文信息,最后生成低内存、高效率的哈希码。他们在遥感数据跨模态检索方面开展了持续性的研究;Datcu M研究团队[9][10]提出一种深度神经网络架构,学习一个对所有输入的模态具有更强判别能力,更能保持语义信息的特征空间,并用于全色遥感图像和多光谱遥感图像的跨模态检索;Yansheng Li等(2008)提出了基于深度哈希卷积神经网络的遥感图像检索方法。这些工作是遥感数据跨模态检索的探索和开创性研究,但是仍有一些不足,如:将不同模态的特征映射到一个公共的潜在嵌入空间当中,在该空间中进行语义对齐时采用平等地、无差别的方式处理不同类型的单词或图像区域,很难捕捉到细粒度的语义差别,忽略了各模态数据的上下文信息等,因此在一定程度上影响了跨模态检索的性能。

在遥感数据的跨模态检索方面值得进一步深入开展的工作和研究的方向包括:(www.xing528.com)

(1)多模态遥感数据集的构建。目前仍缺乏公开的遥感数据多模态数据集,而大量数据对于训练深度学习网络模型是很有必要的。

(2)模态多样性研究。目前的研究大多针对两种模态(如图像-文本和图像-音频),未来需要针对多种模态数据(图像、文本、音频、视频、3D等)的多样性,解决实际应用问题。

(4)如何在多种模态数据之间建立关联的同时,充分利用各自丰富的上下文信息,实现更有效的语义对齐。

(5)基于跨模态哈希的检索。即将跨模态与哈希技术相结合,将多模态数据映射到公共的汉明空间,以满足遥感数据跨模态检索的低内存、高效率需求。

(6)基于度量学习的跨模态检索。将度量学习应用于跨模态检索,在多模态之间学习一种度量,使得语义类别相似的数据距离更近而语义类别不同的数据距离更远,提升跨模态检索性能。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈