一项新的人工智能研究提出了一种多模态的思维链推理语言模型,其在ScienceQA上的表现超过了GPT-3.5 16%(从75.17%提升至91.68%)

A new AI research proposes a multimodal thinking chain reasoning language model, which outperforms GPT-3.5 by 16% (increasing from 75.17% to 91.68%) on ScienceQA.

由于最近的技术发展,大型语言模型(LLMs)在复杂和复杂的推理任务上表现出色。这是通过为提示演示生成中间推理步骤来实现的,这也被称为思维链(CoT)提示。然而,目前关于CoT的大部分工作仅关注语言模态,并且为了在多模态中提取CoT推理,研究人员经常采用多模态-CoT范式。多模态-CoT将多步问题划分为中间推理过程,即使输入是不同的模态,如视觉和语言,也能生成最终输出。进行多模态-CoT的最流行方法之一是将多个模态的输入合并为单个模态,然后提示LLMs执行CoT。然而,这种方法有一些缺点,其中一个是在将数据从一种模态转换为另一种模态时发生的显着信息损失。在多模态中进行CoT推理的另一种方法是通过组合视觉和语言的不同特征来微调小型语言模型。

然而,这种方法的主要问题是这些语言模型倾向于产生产生幻觉的推理模式,这对答案推理产生了显著影响。为了减少此类错误的影响,亚马逊的研究人员提出了多模态-CoT,它在解耦的训练框架中结合了视觉特征。该框架将推理过程分为两个阶段:理由生成和答案推理。通过在两个阶段都包含视觉方面,模型产生更有说服力的论据,以更精确地推理答案。这项工作是首次研究不同模态下的CoT推理。在ScienceQA基准测试中,亚马逊的研究人员提供的技术表现出了最先进的性能,比GPT-3.5的准确性提高了16%,超过了人类的表现。

多模态答案CoT的推理和推理生成阶段使用相同的模型架构,只是输入和输出的类型不同。以视觉语言模型为例,模型在理由生成阶段同时获取来自视觉和语言领域的数据。一旦生成了理由,它就被添加到答案推理步骤的初始语言输入中,以创建下一个阶段的语言输入。然后,模型接收更新后的数据并进行训练,以产生所需的结果。基于Transformer的模型执行三个主要功能(编码、交互和解码),为底层模型提供基础。简单来说,将语言文本输入Transformer编码器以创建文本表示。然后将这个文本表示与视觉表示结合在一起,并输入到Transformer解码器中。

为了评估他们的方法的有效性,研究人员在ScienceQA基准测试上进行了许多测试,这是一个包含超过21,000个多模态科学问题和注释答案的大规模数据集。研究人员得出结论,他们的方法在基准测试中比之前的最先进的GPT-3.5模型提高了16%。简而言之,亚马逊的研究人员通过微调语言模型来组合视觉和语言表示以执行多模态-CoT,从而解决了引出多模态-CoT推理的问题。因此,该模型生成了信息丰富的理由,以帮助推断最终的答案。该模型的GitHub存储库可在下方访问。