首页 理论教育 遥感大数据的多模态学习与跨模态检索优化方案

遥感大数据的多模态学习与跨模态检索优化方案

时间:2023-06-26 理论教育 版权反馈
【摘要】:在遥感领域,由于可获取的多源遥感数据呈爆炸式增长但缺乏语义标注,近几年来,遥感图像数据的多模态学习和跨模态检索得到了越来越多的关注。然而,目前大多数跨模态检索研究针对的是其中两种模态,如跨图像-文本检索和跨图像-语音检索,如何联合学习两种以上模态数据的公共空间,进一步提高跨模态检索的性能,是未来研究的重点。

遥感大数据的多模态学习与跨模态检索优化方案

随着智能移动终端、社交网络和自媒体平台的快速发展,每个人随时随地都可以自由地发布、传递和接收各种多媒体数据,同一语义类别的信息可能存在文本、图像、音频、视频、3D模型等在内的多种类型的数据表现形式。跨模态检索就是要从这些低层特征异构、高层语义相关的多模态数据中,利用不同模态数据的互补信息,实现从一种模态数据到其它模态数据的语义关联。与单模态检索相比,跨模态检索可以实现“以所有查所需”(retrieve whatever they want by submitting whatever they have),检索模式更加灵活和实用,应用领域包括图像描述生成、视频描述、音-视频语音识别、问答系统等。总之,跨模态检索是由数据(互联网多媒体数据)、技术(各种模态数据语义理解和异构特征空间学习)和需求(多样化检索需求)共同驱动的新兴研究方向。

跨模态检索的核心在于建立不同模态数据之间的关联模型。多模态关联建模的一种主流思路是公共空间学习方法,即学习不同模态特征的公共空间,并在公共空间中度量样本之间的相似性。公共空间学习方法的基本思想来源于:共享相同语义的数据之间应该存在潜在关联,因此能够学习出一个公共的高层语义空间。具体而言,首先获取各个模态的抽象表示(即表示学习),并将不同模态的抽象表示显式投影到公共表示空间,然后在该空间中建立不同模态高层抽象之间的关联(即关联学习)以便进行相似性度量。用于跨模态相似性度量的常用方法包括基于图方法或者近邻分析方法等。

近年来,深度学习在图像、语音、自然语言处理等领域取得的重大进展,充分展示了深度学习具有处理不同模态信息的能力,为建立跨模态数据检索提供了有力的工具。将深度学习用于跨模态检索的研究包括将受限玻尔兹曼机(RBM)的扩展应用于公共空间学习、将DNN和典型关联分析(canonical correlation analysis,CCA)结合起来作为深度典型相关分析(DCCA)、深度标准相关自动编码器(DCCAE)、具有多个深度网络的跨媒体多深度网络(CMDN)等。在遥感领域,由于可获取的多源遥感数据呈爆炸式增长但缺乏语义标注,近几年来,遥感图像数据的多模态学习和跨模态检索得到了越来越多的关注。但是由于研究起步较晚,研究成果还十分有限。代表性的工作有:U.Chaudhuri等人提出一种可以实现跨全色波段遥感图像和多光谱遥感图像两种模态的深度检索框架——CMIR-NET,并在多标签遥感公开数据集上进行了验证;Lu Xiaoqiang研究团队考虑到语音作为一种更自然、更有效的人机交互的方式,提出跨语音-图像的深度检索框架,以满足应急响应的检索需求。(www.xing528.com)

然而,目前大多数跨模态检索研究针对的是其中两种模态,如跨图像-文本检索和跨图像-语音检索,如何联合学习两种以上模态数据的公共空间,进一步提高跨模态检索的性能,是未来研究的重点。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈