中国的研究人员介绍了ImageBind-LLM:一种通过ImageBind对大型语言模型(LLM)进行多模态指导调整的方法
中国研究人员介绍了ImageBind-LLM,一种通过ImageBind对大型语言模型进行多模态指导调整的方法


研究人员最近在大型语言模型(LLMs)的指令调整方面取得了显著进展。ChatGPT和GPT-4是遵循语言和视觉中人类命令的通用对话系统。然而,由于闭源限制,它们仍然无法复制。为了应对这一问题,Alpaca、LLaMAAdapter和相关工作提供了将公开可访问的LLaMA修改为使用自动生成的数据的语言指令模型的方法。LLaVA、LLaMA-Adapter和其他方法将视觉理解能力整合到LLMs中,以实现图像条件生成的图片指令定制。
尽管当前的指令调整技术取得了成功,但还需要更多工作来创建用于广泛多模式指令的LLM,例如文本、图片、音频、3D点云和视频。这项研究的作者来自上海人工智能实验室、中文大学多媒体实验室和vivo AI实验室,他们引入了ImageBind-LLM多模式指令跟踪模型,该模型通过在预训练的ImageBind中的联合嵌入空间的指导下有效地微调LLaMA。如图1所示,他们的ImageBind-LLM(b)可以响应多种模式的输入指令,除了图片外,与先前的视觉指令模型(a)不同,展示出了很好的可扩展性和泛化能力。
他们特别提出,仅使用ImageBind的视觉-语言数据来调整多模式指令,因为ImageBind的图像对齐多模式嵌入空间。对于图片-标题对,他们首先使用ImageBind的冻结图像编码器提取全局图像特征,然后使用可学习的绑定网络进行嵌入转换。将转换后的图片特征应用于LLaMA中的所有Transformer层的单词标记,为生成适当的文本标题提供视觉上下文。与LLaMA-Adapter系列中的零初始化注意力相比,他们的视觉注入机制简单,并由可训练的零初始化门控因子加权。
- 这篇AI论文介绍了Agents:一个用于自主语言代理的开源Python框架
- 我们如何看待医疗机器学习中的有偏见的临床数据?呼吁采用考古学的视角
- “认识vLLM:一个用于快速LLM推理和服务的开源机器学习库”
通过这种有效的方式,在训练过程中,ImageBind的多模式嵌入的指令线索可以逐渐引入LLaMA,而不会干扰原始的语言理解。使用ImageBind进行特定模态编码(如文本、图片、音频和视频),他们的ImageBind-LLM在基本的视觉-语言训练后获得了遵循各种模态指令的能力。他们使用Point-Bind中预训练的3D编码器对输入的3D点云进行编码,以处理3D领域的指令。他们还提供了一种无需训练的视觉缓存方法,在推理过程中进行嵌入增强,以解决图像训练和文本、音频、3D或视频条件生成之间的模态差距。
缓存模型包括ImageBind检索的训练数据集中的数百万个图片特征,通过获得可比较的视觉特征(Tip-Adapter)来增强文本/音频/3D/视频嵌入,从而使多模态指令的口头回答质量更高。他们在各种情况下测试了ImageBind-LLM的多模式指令跟踪能力,并始终发现其表现更好。
总的来说,他们的ImageBind-LLM展示了以下四个特点。
• 多模态指令。ImageBind-LLM经过优化,能够响应图像、文本、音频、3D点云和视频等一般多模态输入,以及ImageBind和Point-Bind所表示的嵌入空间算术。这与先前的语言和图像指令模型不同。
• 效率调优。在训练过程中,他们冻结了ImageBind的图像编码器,并使用LoRA和偏置-规范调优等参数高效方法来调整LLaMA的部分权重。他们还训练了零初始化的门控因子和额外的绑定网络。
• 无注意力的零初始化注入。他们采用了一种可学习的门控方法,用于渐进式知识注入,这种方法更直接和高效,并且直接通过LLaMA的所有词标记来满足多模态要求,而不是通过注意力层引入额外的指令信号。
• 从跨模态缓存中检索。他们提供了一个由ImageBind提取的图像特征构建的视觉缓存模型,该模型执行跨模态检索以进行嵌入增强,以解决训练(单个图片)和推理(多个模态)之间的模态差异。





