探究图像-语言变换器对动词理解的作用

探究图像-语言变换器对动词理解的作用

将语言与视觉进行关联是许多现实世界的人工智能系统的基本问题,例如检索图像或为视觉障碍者生成描述。要在这些任务上取得成功,模型需要将语言的不同方面,如对象和动词,与图像相关联。例如,为了区分下面中间一列的两个图像,模型必须区分动词“catch”和“kick”。动词理解尤其困难,因为它不仅需要识别对象,还需要了解图像中不同对象之间的关系。为了克服这个困难,我们引入了SVO-Probes数据集,并使用它来探测语言和视觉模型的动词理解能力。

具体而言,我们考虑多模态Transformer模型(例如Lu等人,2019;Chen等人,2020;Tan和Bansal,2019;Li等人,2020),这些模型在各种语言和视觉任务上取得了成功。然而,尽管在基准测试上表现出色,但这些模型是否具有细粒度的多模态理解尚不清楚。特别是,先前的研究表明,语言和视觉模型可以在没有多模态理解的情况下成功完成基准测试:例如,仅基于语言先验回答关于图像的问题(Agrawal等人,2018)或在为图像加标题时“虚构”不在图像中的对象(Rohrbach等人,2018)。为了预测模型的局限性,像Shekhar等人的工作提出了专门的评估方法,以系统地探测模型的语言理解能力。然而,先前的探针集在对象和动词数量上受到限制。我们开发了SVO-Probes来更好地评估当前模型在动词理解方面的潜在局限性。

SVO-Probes包括48,000个图像-句子对,并测试了400多个动词的理解能力。每个句子可以分解为<主语,动词,宾语>三元组(或SVO三元组),并与正面和负面示例图像配对。负面示例仅在一个方面有所不同:主语、动词或宾语发生变化。上面的图示显示了主题(左侧)、动词(中间)或对象(右侧)与图像不匹配的负面示例。这个任务形式使得可以分离出模型在句子的哪些部分遇到最大困难。它还使得SVO-Probes比标准图像检索任务更具挑战性,在标准图像检索任务中,负面示例通常与查询句子完全无关。

为了创建SVO-Probes,我们使用常见的训练数据集Conceptual Captions(Sharma等人,2018)从图像搜索中查询SVO三元组。由于图像搜索可能存在噪声,我们进行了初步的注释步骤,以过滤检索到的图像,以确保我们拥有一组干净的图像-SVO对。由于Transformer模型是在图像-句子对上进行训练的,而不是在图像-SVO对上进行训练,因此我们需要图像-句子对来探测我们的模型。为了收集描述每个图像的句子,注释者为每个图像编写一个包含SVO三元组的简短句子。例如,给定SVO三元组<动物,躺,草>,注释者可以写句子“一个动物躺在草地上”。然后,我们使用SVO注释将每个句子与一个负面图像配对,并要求注释者在最后的注释步骤中验证负面示例。请参阅下面的图示了解详细信息。

我们研究多模态Transformer是否能够准确分类正面和负面示例。下面的条形图说明了我们的结果。我们的数据集具有挑战性:我们的标准多模态Transformer模型整体上实现了64.3%的准确率(随机准确率为50%)。而在主题和对象上的准确率分别为67.0%和73.4%,动词的准确率下降到了60.8%。这个结果显示了动词识别对于视觉和语言模型确实是一项具有挑战性的任务。

我们还探索了哪种模型架构在我们的数据集上表现最好。令人惊讶的是,具有较弱图像建模能力的模型比标准Transformer模型表现更好。一个假设是我们的标准模型(具有较强的图像建模能力)在训练集上过拟合。由于这两种模型在其他语言和视觉任务上的表现较差,我们的目标探针任务揭示了在其他基准测试中未观察到的模型弱点。

总的来说,尽管多模态变压器在基准测试中表现出色,但在细粒度理解方面,特别是动词的细粒度理解方面,仍然存在困难。我们希望SVO-Probes可以帮助推动语言和视觉模型中动词理解的探索,并激发更有针对性的探测数据集。

在GitHub上访问我们的SVO-Probes基准测试和模型:benchmark and models。