首页 理论教育 基于注意力机制的图像描述生成技术

基于注意力机制的图像描述生成技术

时间:2023-06-26 理论教育 版权反馈
【摘要】:基于注意力机制的图像描述生成方法的一般思路,是将来自输入图像的各种视觉线索在编码端使用注意力机制生成视觉内容权重,然后在解码端根据视觉权重将注意力集中在输入图像的对应区域,以生成对输入图像的描述。图8-9给出了一个典型的基于注意力机制的图像描述生成流程。Xu K.等人首次将注意力机制应用于图像描述生成研究,其基本思想是利用卷积层获取图像特征后,对图像特征进行注意力加权,之后再送入RNN中进行解码。

基于注意力机制的图像描述生成技术

视觉注意力机制是人类视觉所特有的信号处理机制,即人类在观察视觉信息时,能够快速获取感兴趣的目标区域。注意力模型最近几年被广泛应用于包括图像理解、语音识别、自然语言处理等在内的各个领域,其在机器翻译领域的成功应用,使其在图像描述生成领域也成为研究热点。

在图像描述生成的编-解码架构中引入注意力机制,能够使编码或者解码处理聚焦在输入图像的某个显著区域而非图像整体,显然更符合人的视觉特性。基于注意力机制的图像描述生成方法的一般思路,是将来自输入图像的各种视觉线索在编码端使用注意力机制生成视觉内容权重,然后在解码端根据视觉权重将注意力集中在输入图像的对应区域,以生成对输入图像的描述。图8-9给出了一个典型的基于注意力机制的图像描述生成流程。

图8-9 典型的基于注意力机制的图像描述生成方法的框图

注意力机制在生成输出序列的同时,对图像的不同区域赋予不同的权重,将编码器变化产生的中间变量与感兴趣区域的变化相关联,通过调整注意系数,实现对输入图像不同区域的动态聚焦。对应于图像的描述向量,第i个中间向量vi可以表示为(www.xing528.com)

其中,权重αij可根据图像第j个区域与生成的句子中第i-1个单词关联性计算得到。其中,a(·)为对齐模型。

Xu K.等人(2015)首次将注意力机制应用于图像描述生成研究,其基本思想是利用卷积层获取图像特征后,对图像特征进行注意力加权,之后再送入RNN中进行解码。他们提出两种注意力机制:软注意力机制和硬注意力机制,其中,软注意力机制在实际应用中更为广泛。基于注意力机制的图像描述生成方面的其它代表性研究工作包括:Li L.等人(2017)提出一种基于全局-局部注意力机制的图像描述方法,该模型将注意力机制分为对象级的局部表示和图像级的全局表示,能够更加准确预测显著对象的同时,保持图像全局的上下文信息;Lu J.等人(2017)提出“视觉哨兵”(visual sentinel)概念,视觉哨兵被认为隐式地存储了解码端已知的信息,长期和短期的视觉信息和语言信息;他们还提出了一种相对于传统注意力机制而言可解释性更强的注意力改进机制——自适应注意力机制,可以让模型在生成每个单词的同时,自适应地决定是否需要利用图像信息;Anderson等人(2017)提出的自下而上和自上而下模型除了将目标检测引入编码端之外,在解码端还使用了注意力LSTM层,并且根据输出的语言特征对输入的图像特征进行实时注意力调整;You Q.等人(2016)提出基于语义注意力机制的图像描述生成方法,基本思想是在编码过程之后对图像特征进行语义层面的分类,在解码端选择相应类别的图像特征进行文本生成;Long Chen等人(2017)提出一种同时引入空间注意力和通道注意力机制的图像描述生成方法;Qi Wu等人(2016)利用基于语言特征的注意力机制,将高层语义概念直接作为解码端的输入,在获取语句的过程中对这些概念进行注意,从而验证高层语义信息对于解决视觉-语言问题的有效性,等等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈