哥伦比亚大学和苹果公司的研究人员推出了Ferret:一种突破性的多模态语言模型,用于高级图像理解和描述
哥伦比亚大学和苹果公司的研究人员研发出突破性的多模态语言模型Ferret,提升高级图像理解与描述能力
如何促进模型的空间知识是视觉语言学习中的一个重要研究问题。这个困境要求两种必备能力:引用和基础。基础要求模型根据提供的语义描述来定位区域,而引用则要求模型完全理解特定提供的区域的语义。本质上,将地理信息和语义对齐是引用和基础所需的知识。尽管如此,目前的文本通常将引用和基础的教学分开。而人类则能够在日常讨论和推理中流畅地结合引用/基础能力,并且能够从一个活动中学习并将共享的知识推广到其他工作中而毫无困难。
在这项研究中,他们针对以上不一致性问题研究了三个关键问题。(i) 如何将引用和基础合并到一个统一的框架中,它们将如何互补?(ii) 如何描述人们经常用于指代事物的多个区域,比如点、框、涂鸦和自由形状?(iii) 引用和基础如何变得与实际应用相关,成为开放词汇、遵循指令和稳健的能力?哥伦比亚大学和苹果AI/ML的研究人员提出了新的引用与基础多模态大型语言模型(MLLM)Ferret,以解决这三个问题。他们首先选择MLLM作为Ferret的基础,因为它具有强大的视觉语言全局理解能力。如图1所示,Ferret首先将区域的坐标以朴素的语言数值形式进行编码,以统一引用和基础。
图3:所建议的Ferret模型的总体架构概览。左侧显示了建议的混合区域表示和具有空间意识的视觉采样器。整体模型架构(右侧)。图像编码器是唯一不能训练的参数。
然而,用一个点或一组坐标的框来表示各种区域形状,如笔划、涂鸦或复杂多边形,是不实际的。这些形状对于更准确和全面的人机交互是必要的。为了解决这个问题,他们还建议使用具有空间意识的视觉采样器来获取任意形式区域的光学特征,考虑到这些形状的可变稀疏性。然后,在Ferret中使用混合区域表示来表示输入中的视觉区域,该表示由离散坐标和连续的视觉特征组成。通过上述技术,Ferret可以处理结合了自由文本和引用区域的输入,并且可以通过自动为每个可基于地面物体和文本创建坐标来将指定的项目绑定到其输出中。
<p据他们所知,Ferret是第一个处理具有自由形式区域输入的MLLM应用。他们收集了GRIT(Ground-and-Refer Instruction-Tuning)数据集,包含了110万个样本,以创建Ferret的开放词汇,遵循指令和韧性的引用和基础能力。GRIT包含了各种层次的空间知识,包括区域、连接、对象和复杂的推理描述。它包含了在输入和输出中结合位置和文本的数据,以及位置-文本输出(引用)和文本-位置输出(基础)。在精心制作的模板的帮助下,大部分数据集从当前的视觉(语言)任务,如对象识别和短语基础上,转化为指令遵循。
<p为了帮助训练一个具有指令遵循、开放词汇引用和基础能力的普遍性,在ChatGPT/GPT-4上还收集了34K个引用和基础指令调整对话。他们还进行了具有空间意识的负数据采集,以增加模型的稳健性。Ferret具备较高的开放词汇空间意识和定位能力。以传统引用和基础活动为衡量标准,它的表现更好。不仅如此,他们认为引用和基础的能力应该融入日常人类讨论中,例如,当个体提到某些陌生的事物并询问其功能时。为了评估这种新技能,他们提出了Ferret-Bench,涵盖了三种新类型的任务:引用描述、引用推理和对话中的基础。他们将Ferret与已经使用的最好的MLLM进行对比,并发现它的性能平均优于它们20.4%。Ferret还具有减少虚幻对象的显著能力。
总体而言,他们做出了三个不同的贡献。 (i) 他们提出了 Ferret,它在MLLM中实现了精细化和开放式词汇参考和定位。Ferret采用了混合区域表示,配备了独特的空间感知可视采样器。 (ii) 他们创建了GRIT,一个用于模型训练的大型地面参考和定位指导数据集。它还包括额外的空间负例,以增强模型的韧性。为了同时评估需要参照/定位、语义、知识和推理的任务,他们创建了 Ferret-Bench (iii)。他们的模型在各种活动中表现更好,并且具有较少的物体错觉。