一项新的人工智能研究推出了GPT4RoI:一种基于区域-文本对上进行指导调整的大型语言模型(LLM)的视觉-语言模型

A new AI research introduces GPT4RoI a large-scale language model (LLM) for visual-language modeling, guided by region-text pairs.

大型语言模型(LLM)最近取得了巨大进展,在需要自然语言处理的对话任务中表现出了惊人的性能。商业产品包括ChatGPT、Claude、Bard、仅文本的GPT-4以及社区开源项目LLama、Alpaca、Vicuna、ChatGLM、MOSS等。由于它们的前所未有的强大能力,它们为通用人工智能模型提供了潜在的路径。由于LLM的有效性,多模态建模社区正在创建一条新的技术路径,将LLM用作创建通用模型的通用接口,其中给定工作的特征空间被调整为与预训练语言模型的特征空间一致。

视觉和语言模型,如MiniGPT-4、LLaVA、LLaMA-Adapter、InstructBLIP等,通过图像-文本配对进行指令调整,将视觉编码器与LLM对齐,作为代表性任务之一。对齐质量显著影响视觉和语言模型在指令调整设计概念下的性能。尽管这些工作具有出色的多模态技能,但它们的区域级对齐阻止了它们在区域字幕和推理等更复杂的理解任务中的进展。它们的对齐仅限于图像-文本配对。一些研究使用外部视觉模型(如MM-REACT、InternGPT和DetGPT)在视觉-语言模型中提供区域级理解。

然而,它们的非端到端设计可能更适合于全能多模态模型。本研究旨在从头到尾开发一个视觉-语言模型,以提供对感兴趣区域的细粒度理解。图片级视觉-语言模型的主要设计是将物体框作为空间指令的格式,因为这些模型中的模型架构将整个图像压缩为图像嵌入,而没有任何操作来引用特定部分。为了获得答案,LLM使用空间教学和语言指令提供了视觉元素的提取。例如,当查询是交错序列“What is this doing?”时,模型将使用空间指令所引用的区域特征进行替换。

RoIAlign或Deformable Attention是两种灵活的空间指令实现方法。它们将训练数据从图像-文本数据集更新为区域-文本数据集,其中每个项目的边界框和文本描述被提供以建立区域-文本配对之间的细粒度对齐关系。公开可访问的数据集,如COCO对象识别、RefCOCO、RefCOCO+、RefCOCOg、Flickr30K实体、Visual Genome(VG)和Visual Commonsense Reasoning(VCR)被结合使用。这些数据集被修改为指令调整的格式。此外,使用商业可用的目标检测器从图片中提取物体框,并将它们用作空间指令,可以利用图像-文本训练数据(如LLaVA150K)进行空间教学。他们的模型在不影响LLM的情况下进行了改进,用于预训练区域特征提取器。

由于从这些经过精心选择的图像-文本数据集中学习,他们的模型在对话质量和生成更接近人类的回复方面得到了提高。根据文本长度,收集到的数据集分为两类。首先,短文本数据包括有关项目类别和基本特征的信息。在不影响LLM的情况下,它用于预训练区域特征提取器。其次,较长的文本通常包含复杂的思想或需要逻辑思考。他们为这些数据提供复杂的空间指令,以实现区域特征提取器和LLM的端到端微调,模拟实际使用中灵活的用户指令。他们的方法通过空间指令调整获得的优势,为视觉-语言模型的用户提供了独特的交互体验,用户可以以语言形式和空间指令形式与模型进行交流。

图1展示了这导致了超越图像级理解的新能力,如复杂的区域推理和区域字幕。总之,他们的工作贡献如下:

• 通过在区域文本数据集上对LLM进行训练,他们推进了区域级视觉-语言模型。与之前的图像级模型相比,他们的模型具有更多的功能,如区域字幕和推理。

• 为了获得回答,他们引入了空间指令来引用感兴趣的区域,并将从视觉编码器中恢复的区域特征与语言指令一起提供给LLM。

• 编码、数据集的指令调整格式以及在线演示均可在GitHub上获得。

图1: 一个名为GPT4RoI的视觉语言模型是建立在对区域和文本进行指令调整的大型语言模型(LLMs)之上的。它能够分析将语言和位置信息结合在单一区域的用户指令。完成了细粒度的多模态理解任务,如区域描述和推理。