【文献阅读】ReGAT——关系感知图注意力网络来提高VQA对图像中复杂语义的理解(L. Li等人,ICCV,2019)

一、背景

文章题目:《Relation-Aware Graph Attention Network for Visual Question Answering》

文章下载地址https://ieeexplore.ieee.org/document/9010056 或者 https://openaccess.thecvf.com/content_ICCV_2019/papers/Li_Relation-Aware_Graph_Attention_Network_for_Visual_Question_Answering_ICCV_2019_paper.pdf

文献引用格式Linjie Li, Zhe Gan, Yu Cheng, Jingjing Liu. “Relation-Aware Graph Attention Network for Visual Question Answering.” In The International Conference on Computer Vision (ICCV), 2019

项目地址:暂无

二、文章摘要

In order to answer semantically-complicated questions about an image, a Visual Question Answering (VQA) model needs to fully understand the visual scene in the image, especially the interactive dynamics between different objects. We propose a Relation-aware Graph Attention Network (ReGAT), which encodes each image into a graph and models multi-type inter-object relations via a graph attention mechanism, to learn question-adaptive relation representations. Two types of visual object relations are explored: (i) Explicit Relations that represent geometric positions and semantic interactions between objects; and (ii) Implicit Relations that capture the hidden dynamics between image regions. Experiments demonstrate that ReGAT outperforms prior state-of-the-art approaches on both VQA 2.0 and VQA-CP v2 datasets. We further show that Re-GAT is compatible to existing VQA architectures, and can be used as a generic relation encoder to boost the model performance for VQA.

为了回答和图像有关的复杂语义的问题,VQA需要更好的理解图像中的视觉场景,尤其是不同目标之间的动态交互。作者提出了一种关系感知图注意力网络ReGAT,它能够将图编码为图像,通过图注意力机制对多种内在目标关系建模,来学习问题适应的关系表示。两种视觉目标关系包括:(1)明确的关系,即表示几何位置和目标间的语义交互(2)不明确的关系,即捕捉图像区域中的隐含活动。在VQA两个数据集上的实验表明该方法比其他方法都要好。

三、文章介绍

大部分的VQA都是关注于学习两个模态的联合表示。一般CNN学习图像表示,RNN学习文本表示,然后将两个表示联合起来用于答案预测。这种方法一般都是很有效的,但是存在图像和语言之间的明显语义差异。比如下面图1 的情况:

《【文献阅读】ReGAT——关系感知图注意力网络来提高VQA对图像中复杂语义的理解(L. Li等人,ICCV,2019)》

如果有一群斑马,也许模型能够识别出黑白像素是斑马,但是模型是无法识别出那一个黑或者白像素是来自于哪一个斑马。这样就很难回答一些问题,比如“远处右侧的斑马是一只幼年的斑马吗?”或者“是否所有的斑马都在吃草?”。VQA模型不仅需要辨认出每一只斑马,还需要辨认出周围环境“草地”,和斑马的动作“吃”,以及斑马的位置“远处右侧”。

为了识别这些语义信息,我们需要更好的识别图像中的目标和对场景进行理解。一种可行的方案是同时检测出每个目标的周围目标的相关位置(比如<motorcycle-next to-car>)。另一种方案则是学习两个目标之间的语义依赖性(比如<girl-eating-cake>),来捕捉视觉场景中的交互活动。

以此为动机,作者提出了ReGAT关系感知图注意力网络。引入一个新的关系编码,来捕捉目标间的关系,以超越静态目标检测。为了揭露图像场景的变化,用这个关系编码同时学习明确和不明确的关系,即将图像表示为图形,并通过图形注意机制捕获对象之间的交互。

此外,图形注意力基于问题的上下文来学习,使其能够将语义信息嵌入到表征的向量中。通过关系网络学习到的特征,不仅包含视觉信息,而且还包含问题的语义信息,下图是提出的模型的结构:

《【文献阅读】ReGAT——关系感知图注意力网络来提高VQA对图像中复杂语义的理解(L. Li等人,ICCV,2019)》

首先,用Faster RCNN找出所有目标的候选框,并同时对问题进行嵌入。然后将box的特征输入到关系网络中,来学习关系感知,问题适应,和区域级的图像表示。这些关系感知的视觉特征和问题嵌入输入到一个多模态融合模块里,生成一个联合表示,之后用于答案预测模块用于生成答案。

本文的主要贡献有以下三个方面:

• We propose a novel graph-based relation encoder to learn both explicit and implicit relations between visual objects via graph attention networks. 提出了一个基于图的关系编码器,能够通过图注意力网络学习视觉目标之间的明确关系和不明确关系。

• The learned relations are question-adaptive, meaning that they can dynamically capture visual object relations that are most relevant to each question. 学习的关系是问题适应的,意味着可以动态捕捉视觉目标的关系,并找到与其最相关的问题。

• We show that our ReGAT model is a generic approach that can be used to improve state-of-the-art VQA models on the VQA 2.0 dataset. Our model also achieved state-of-the-art performance on the more challanging VQA-CP v2 dataset. ReGAT模型达到了最好的结果。

1. 相关工作

视觉问答:一般四部分image encoder, a question encoder, multimodal fusion, and an answer predictor.

视觉关系:视觉关系近期也有很多研究,早期工作提出了通过将对象关系(例如,共现,位置和大小)视为对象检测的后处理步骤来对得分进行重新评分的方法,还有一些早期研究通过检测目标间的空间关系来改善图像分割的精度。视觉关系在很多视觉任务中都有非常重要的应用,比如,映射图像到描述,图像检索,目标定位。而近期的工作则更多关注于非空间关系,即语义关系,比如行为,目标间的交互。

关系推理:前面说的视觉关系都是一种明确关系,它对看图说话非常有用。而GCN则用来学习目标间的语义关系。另外对于不明确关系,即没有明显的语义或者空间关系能够用于构建图网络,一般用注意力模块或者对全连接图用高次方法进行处理,对目标间的交互进行建模。还有其他方法,使用基于条件问题的图来表示图像。

2. 关系感知图注意力网络

作者提出的模型的详细结构如下图所示:

《【文献阅读】ReGAT——关系感知图注意力网络来提高VQA对图像中复杂语义的理解(L. Li等人,ICCV,2019)》

对图像编码模块来说,用Faster R-CNN来检测一系列的目标,每一个目标由视觉特征向量和bounding-box特征向量组成。对于问题编码来说,我们使用双向GRU,并在hidden states上使用自注意力,生成问题嵌入,下面则是对关系网络构建的介绍:

(1)图的构建

Fully-connected Relation Graph全连接关系图:我们将图像中的一个目标作为图的一个顶点,可以构建一个全连接无向图,图中的每一条边都表示两个目标之间的不明确关系,其可以反映出通过图注意力每一条边所学习到权重。所有的不明确关系的学习都不需要任何先验知识。因此这一步称为不明确关系编码器。

Pruned Graph with Prior Knowledge先验知识剪枝图:如果两个顶点之间的明确关系都是可用的,那么就可以通过剪枝不存在关系的边,将全连接图转换为明确关系图。通过对边的标记,图会变得稀疏,每条边都会对目标的内在关系编码先验知识。这一步称之为明确关系编码器。这一步是需要预训练的分类器来编码离散的类别标签。

基于这种剪枝图,可以学习到不同类型的明确关系。本文主要探索两种关系:空间图和语义图。

为了构建空间图,给定两个目标区域的搜索框,两个目标之间的空间关系分为11类,比如下图所示,另外空间关系必须是对称的。

《【文献阅读】ReGAT——关系感知图注意力网络来提高VQA对图像中复杂语义的理解(L. Li等人,ICCV,2019)》

为构建语义图,需要提取两个目标之间的语义。作者将其按照分类任务来处理,通过在VG数据集上训练语义分类器,将该分类器用于两个目标,判断目标间的语义关系。

(2)关系编码

问题适应的图注意力:对于VQA来说,对于不同类型问题会有不同的关系,因此,在VQA的设计中,引入了问题适应的图注意力机制,将问题间的语义信息用于关系图。首先是将问题嵌入连接到每一个视觉特征,然后再每个顶点上执行自注意力,将会产生一个隐含关系特征,最后,再根据注意力公式计算每一个关系图的注意力。为了使学习过程稳定,另外还采用了multi-head注意力。

不明确关系:学习不明确关系的图是全连接图,这里作者调整了注意力权重,不仅仅依靠于目标的视觉特征,还与box特征有关。

明确关系:因为语义图的边包含了标签信息并且是有向的,前面设计的注意力都对有向图和标签非常敏感。故作者在图注意力机制之后,对校正的区域特征加上了先验语义关系。

(3)多模态融合和答案预测

关系编码器存在视觉特征的维度,它可以与任何多模态融合方法结合。对于答案预测,作者使用了两层的MLP,loss使用二值交叉熵。

3. 实验

实验基于数据集VQA 2.0,参与比较的模型包括BUTD, MUTAN, BAN,三种模型的结果如下图所示,其中,Imp / Sem / Spa分别表示三种关系:

《【文献阅读】ReGAT——关系感知图注意力网络来提高VQA对图像中复杂语义的理解(L. Li等人,ICCV,2019)》

作者还在VQA-CP v2数据集上进行了实验,实验的结果如下:

《【文献阅读】ReGAT——关系感知图注意力网络来提高VQA对图像中复杂语义的理解(L. Li等人,ICCV,2019)》

下图是单个模型在VQA 2.0测试集上的表现:

《【文献阅读】ReGAT——关系感知图注意力网络来提高VQA对图像中复杂语义的理解(L. Li等人,ICCV,2019)》

后面作者又进行了消融实验,结果如下图所示:

《【文献阅读】ReGAT——关系感知图注意力网络来提高VQA对图像中复杂语义的理解(L. Li等人,ICCV,2019)》

下图是对消融结果的一个可视化:

《【文献阅读】ReGAT——关系感知图注意力网络来提高VQA对图像中复杂语义的理解(L. Li等人,ICCV,2019)》

下图是对不同关系的可视化:

《【文献阅读】ReGAT——关系感知图注意力网络来提高VQA对图像中复杂语义的理解(L. Li等人,ICCV,2019)》

四、小结

 

    原文作者:全部梭哈迟早暴富
    原文地址: https://blog.csdn.net/z704630835/article/details/108263031
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞