首页 理论教育 难点分析与研究现状

难点分析与研究现状

时间:2023-06-26 理论教育 版权反馈
【摘要】:图8-11遥感图像的多尺度特性二、语义类别歧义与自然图像相比,遥感场景往往是同时覆盖多种土地覆盖类型或多种地物目标的大尺度区域,缺乏显著目标。图8-12遥感图像的语义类别歧义特性在遥感图像描述生成方面,中科院西安光机所的卢孝强教授团队和西北工业大学的李学龙教授团队开展了较为深入的研究。

难点分析与研究现状

遥感图像描述生成的主要难点可以归纳为多尺度特性和语义类别歧义两个方面。

一、多尺度特性

在遥感图像上,相同类型的地物在不同尺度下常常表现出完全不同的语义特征,以机场为例,像素级语义特征为地面材质特征,如金属、混凝土、土壤等;目标级语义特征为人造目标,如飞机、航站楼、跑道等;场景级语义特征为机场、港口等,如图8-11所示。生成的遥感图像描述应该能够体现遥感图像的多尺度特性。

图8-11 遥感图像的多尺度特性

二、语义类别歧义(www.xing528.com)

与自然图像相比,遥感场景往往是同时覆盖多种土地覆盖类型或多种地物目标的大尺度区域(如城市和乡村的交界区域、海港和陆地的交界地区等),缺乏显著目标。这种情况下,如果仅使用单一语义标签来定义遥感场景,很容易产生语义类别歧义,如图8-12所示。语义类别歧义增加了遥感图像描述生成的难度。

图8-12 遥感图像的语义类别歧义特性

在遥感图像描述生成方面,中科院西安光机所的卢孝强教授团队和西北工业大学的李学龙教授团队开展了较为深入的研究。此外,西安电子科技大学人工智能学院焦李成教授和张向荣教授、北航宇航学院图像处理中心的史振威教授、中科院电子所付琨研究员和孙显研究员等人及国外一些学者也开展了一些类似的研究。具体包括:卢孝强教授团队最早在基于深度学习的遥感图像描述生成领域发表研究成果,他们首次创建了遥感图像描述生成的2个公开数据集:UCM-Captions和Sydney-Captions,并提出一种多模态深度神经网络结构,用于生成高分辨率遥感图像的描述语句,以实现遥感图像的语义层理解。在后续的工作中,为了生成更准确、更灵活的描述语句,他们分析了遥感图像语句标注时需要考虑的特性(尺度歧义,旋转歧义和类别歧义等),并创建了一个大规模数据集RSICD,同样采用了编-解码结构用于生成遥感图像描述语句;他们的后续研究包括:提出了一个使用语义嵌入来衡量遥感图像和描述语句的协同语义度量学习框架,并使用客观-主观指标进行综合性能评价;他们提出了一个基于视觉-语音的多模态检索方法,为此,基于UCM、Sydney和RSICD三个数据集创建了一个具有丰富多样性的大规模遥感图像语料库,并设计了一个融合了特征提取和多模态学习的深度视觉-语音神经网络;最新的研究中,他们提出一个新颖的检索主题循环记忆网络结构(retrieval topic recurrent memory network,RTRMN),目的是解决当描述一幅图像的5个语句之间存在歧义时,导致产生的最终描述语句可能带有歧义的问题。

张向荣教授团队的研究同样也是基于编-解码结构,具体包括:基于CNN-RNN网络实现目标检测及描述语句生成;提出了一个基于属性注意力机制的框架,给不同的属性赋以不同的权重;在他们的另一项工作中,提出了一种多尺度剪裁的训练机制,该机制在提取更多细粒度信息的同时,能有效增强基本模型的泛化性能。

其它研究包括:Z.Shi等人(2017)将遥感图像描述生成的难点总结为多尺度语义和语义歧义,提出一个基于两阶段的框架来为遥感图像生成描述语句,图像的多层次理解基于FCN实现,数据源来自Google Earth和高分2号卫星影像,从客观、主观以及计算代价3个方面对算法性能进行了评价;Zhang Z.等人(2019)提出一种新的注意力模型(visual aligning attention model,VAA),解码端的注意力层通过一个精心设计的注意力损失函数进行优化,同时采用视觉模板过滤掉非视觉词,从而去除其在训练注意力层时的影响;Yuan Z.等人(2019)提出一种多层次注意力和多标签属性图卷积神经网络,目标是充分考虑遥感图像的尺度差异及空间特性;Kumar等(2019)提出了一种基于区域的遥感图像描述生成方法,在他们的网络结构中,去掉了全连接层,强化了“域”(这里指类别)概率以突出图像中的类别信息;此外,他们基于无人机数据集UAVIC创建了一个目标更加多样的遥感图像描述生成数据集。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈