人类每天都要接收大量视觉信息。尽管“一幅图胜过千言万语”,然而很多时候,面对浩如烟海的图像数据,人们仍然希望计算机能够自动生成简洁而准确的句子来描述图像想要传达的信息。让计算机模拟人的能力去解译视觉世界,是人工智能的目标之一。
图像描述生成(image captioning)就是让计算机试图理解图像并生成符合图像语义内容的自然语言描述的过程,涵盖计算机视觉和自然语言处理两大研究方向,已经成为人工智能领域的研究热点,可应用于生物、医学、商业、军事、教育、数字图书馆等众多领域,如人机交互、早期教育、辅助视障人士阅读、视频智能过滤等,其中最典型的应用之一就是搜索引擎中的图像检索。
尽管在过去的几十年里,特别是近几年,很多计算机视觉任务,如自动标注、目标检测和识别、语义分割、场景分类等都取得了显著的成果。然而,让计算机模拟人类的视觉和认知,并且用符合人类规范的自然语言描述一幅图像所包含的丰富语义信息,从而为用户提供有价值的信息,仍是极富挑战性的工作。这是因为,图像描述生成与以上计算机视觉任务相比,其目标是要产生准确自然、新颖灵活、词汇丰富的综合性描述语句,而不仅仅是预测一个或多个标签;综合性描述语句中除了包含图像的目标及其所属的语义类别,还应该包含目标的属性信息以及目标之间的相互关系,并根据图像所包含目标之间的相关性具备一定的推理功能。而遥感图像数据的尺度模糊性、类别模糊性和旋转歧义性等特点,更是增加了这一工作的难度。(www.xing528.com)
本章首先介绍图像描述生成的概念及发展、标准的图像描述生成自然图像集及常用的性能评价指标,然后总结传统的和基于深度学习的图像描述生成方法,重点介绍基于深度学习的图像描述生成系统的基本架构和关键技术;接下来分析遥感图像描述生成的难点及研究现状,给出基于多尺度和上下文注意力机制的解决方案;最后基于公开遥感图像描述数据集,设计并实现了一个基于图像描述生成的遥感图像智能检索系统,并对检索结果进行了分析。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。