见到NExT-GPT:一种端到端的通用任意多模态大型语言模型(MM-LLMs)

NExT-GPT A multimodal large-scale language model (MM-LLMs) with end-to-end capabilities.

多模式语言模型(Multimodal LLMs)可以通过语音、文本和视觉输入实现更自然和直观的用户与人工智能系统之间的交互,从而增强人机交互。这可以在聊天机器人、虚拟助手和内容推荐系统等应用中实现更具上下文相关性和全面性的响应。它们建立在传统单模式语言模型(如GPT-3)的基础上,同时融合了处理不同数据类型的额外能力。

然而,多模式语言模型可能需要大量的数据才能表现良好,使其比其他人工智能模型的样本效率低。在训练过程中对不同模态的数据进行对齐可能具有挑战性。由于整体端到端训练缺乏错误传播,内容理解和多模式生成能力可能非常有限。由于不同模块之间的信息传递完全基于LLM生成的离散文本,噪音和错误是不可避免的。确保每种模态的信息正确同步对于实际训练至关重要。

为了解决这些问题,新加坡国立大学(NUS)计算机科学学院的研究人员构建了NexT-GPT。它是一种任意-任意多模式语言模型,设计用于处理文本、图像、视频和音频模态的任意组合的输入和输出。它使编码器能够对各种模态的输入进行编码,进而投影到LLM的表示上。

他们的方法涉及修改现有的开源语言模型作为核心来处理输入信息。在投影之后,具有特定指令的生成的多模式信号被指向不同的编码器,最终以相应的模态生成内容。从头开始训练他们的模型是具有成本效益的,因此他们使用现有的预训练高性能编码器和解码器,如Q-Former、ImageBind和最先进的潜在扩散模型。

他们引入了一种轻量级的对齐学习技术,通过这种技术,在编码端进行基于LLM的对齐和在解码端进行遵循指令的对齐,可以有效地减少参数调整,实现有效的语义对齐。他们甚至引入了一种模态切换指令调整方法,为他们的任意-任意多模式语言模型赋予人类级能力。这将弥合不同模态的特征空间之间的差距,并确保对其他输入的流畅语义理解,以进行NExT-GPT的对齐学习。

模态切换指令调整(MosIT)支持复杂的跨模态理解和推理,并实现复杂的多模式内容生成。他们甚至构建了一个高质量的数据集,其中包含各种多模式输入和输出,为训练多模式语言模型处理多样化的用户交互并准确地提供所需的响应提供了必要的复杂性和变异性。

最后,他们的研究展示了任意-任意多模式语言模型在弥合各种模态之间差距、为未来更像人类的人工智能系统铺平道路的潜力。