这篇AI论文介绍了LLaVA-Plus 一款通用的多模态助手,扩展了大型多模态模型的功能
LLaVA-Plus 一款通用的多模态助手,拓展大型多模态模型的功能——这篇AI论文详细介绍
创建通用助手,通过遵循用户的(多模态)指令来有效地执行各种现实世界活动,一直是人工智能的目标。尽管像ChatGPT这样的大型语言模型(LLMs)在生成自然语言任务的通用助手方面非常有效,但如何创建用于计算机视觉和视觉语言活动的多模态通用助手仍然需要探索。
当前创建多模态代理的努力一般可以分为两组:
(i)使用LLMs的端到端训练,连续训练LLMs通过使用图像文本数据和多模态指令跟随数据来学习如何解释视觉信息,从而创建一系列大型多模态模型(LMMs)。开源模型如LLaVA和MiniGPT-4以及私有模型如Flamingo和多模态GPT-4已经展示出令人印象深刻的视觉理解和推理能力。尽管这些端到端训练方法能够帮助LMMs获得新兴技能(如上下文学习),但创建一个可以顺利集成广泛能力(如图像分割和生成)的连贯体系结构,对于在实际世界中进行多模态应用仍然是一项困难的任务。
(ii)与LLMs的工具链接,精心设计提示,允许LLMs调用各种工具(如已经训练好的视觉模型)来完成所需(子)任务,而无需进行进一步的模型训练。VisProg、ViperGPT、Visual ChatGPT、X-GPT和MM-REACT都是众所周知的工作。这些方法的优势在于能够使用(新的)便宜开发并集成到AI代理中的工具处理各种视觉任务。然而,提示需要更加灵活可靠,以使多模态代理能够可靠地选择和激活正确的工具(从广泛多样的工具集中),并组合其结果以便在实际世界中提供多模态任务的最终解决方案。
图1:LLaVA-Plus的可能性的图形表示。
清华大学、微软研究院、威斯康星大学麦迪逊分校、香港科技大学和IDEA Research在这篇论文中介绍了LLaVA-Plus(大型语言和视觉助手,通过插入和学习技能),这是一个具有广泛应用的多模态助手,通过端到端训练方法系统地增强LMMs的能力,从而获得工具的使用技能。据他们所知,这是首次将之前描述的工具链接和端到端训练技术的优势结合起来的文件化尝试。LLaVA-Plus附带的技能库拥有大量的视觉和视觉语言工具。该设计是“心智社会”理论的一个例子,其中为特定任务创建了单独的工具,它们本身的使用很有限;然而,当这些工具组合在一起时,它们提供了展示更大智能的新兴技能。
例如,给定用户的多模态输入,LLaVA-Plus可以立即创建新的工作流,从技能库中选择和激活相关工具,并组合其执行的结果以完成训练时不可见的各种现实世界任务。通过进行指令调整,LLaVA-Plus可以随着时间的推移不断增强,增加额外的能力或工具。假设为某个特定用例或能力创建了全新的多模态工具。为了进行调优,他们收集需要该工具的相关用户指令以及其执行结果或随之而来的结果。在进行指令调整后,LLaVA-Plus将获得更多能力,因为它学会使用这个新工具来完成以前不可能的工作。
此外,LLaVA-Plus在LLMs工具使用培训方面与先前的研究有所不同,通过仅使用视觉线索与多模态工具相结合。然而,LLaVA-Plus通过在所有人工智能-人类接触会话中使用未处理的视觉信号来增强LMM的规划和推理能力。总结一下,他们的论文的贡献如下:
• 使用新的多模态指令跟随工具的数据。使用ChatGPT和GPT-4作为标记工具,他们描述了一种新的流程,用于选择视觉语言指令跟随数据,该数据旨在用作人工智能与人类交互会话中的工具。
• 一个新的大型多模态助手。他们创建了LLaVA-Plus,这是一个具有广泛用途的多模态助手,通过整合大量不同的外部工具,可以快速选择、组装和使用来完成任务。图1说明了LLaVA-Plus如何大大扩展了LMM的可能性。他们的实证调查通过在几个基准测试中展现一致性更好的结果,特别是在具有各种真实世界活动的VisiT-Bench上的新SoTA。
• 无源代码。他们将公开提供的材料包括生成的多模态指令数据、代码库、LLaVA-Plus检查点和一个视觉聊天演示。