这项AI研究推出了CoDi-2:一种突破性的多模态大型语言模型,改变了交错指令处理和多模态输出生成的领域

AI研究的重大突破:CoDi-2让交错指令处理和多模态输出生成领域变革

研究人员在加州大学伯克利分校、微软Azure AI、Zoom和北卡罗来纳大学教堂山分校共同开发了CoDi-2多模态大语言模型(MLLM),旨在解决生成和理解复杂多模态指令的问题,并在主题驱动的图像生成、视觉转换和音频编辑任务方面取得卓越成果。这个模型代表了在建立全面多模态基础上的重大突破。

CoDi-2通过擅长主题驱动的图像生成和音频编辑等任务,扩展了其前身CoDi的能力。模型的架构包括音频和视觉输入的编码器和解码器。训练过程中结合来自扩散模型的像素损失和标记损失。CoDi-2在风格适应和主题驱动生成等任务中展示了出色的零样本和少样本能力。

CoDi-2解决了多模态生成中的挑战,强调零样本细粒度控制、模态交错指令跟随和多轮多模态聊天。利用LLM作为其大脑,CoDi-2在编码和生成过程中将模态与语言对齐。这种方法使得模型能够理解复杂的指令并生成连贯的多模态输出。

CoDi-2的架构包括音频和视觉输入的编码器和解码器,位于多模态大语言模型内部。在多样化的生成数据集上进行训练,CoDi-2在训练阶段利用了来自扩散模型的像素损失和标记损失。展示出优越的零样本能力,CoDi-2在主题驱动的图像生成、视觉转换和音频编辑方面胜过先前的模型,展示出在新的未知任务中的竞争性表现和泛化能力。

CoDi-2在多模态生成中展示了广泛的零样本能力,通过多轮互动对话在上下文学习、推理和任意模态生成方面表现出色。评估结果表明,其零样本性能竞争力强,对新的未知任务具有稳健的泛化能力。CoDi-2在音频处理任务上表现出色,添加、删除和替换音频轨道元素的性能最佳,表现指标得分最低。它突显了上下文年龄、概念学习、编辑和细粒度控制在推进高保真多模态生成中的重要性。

总之,CoDi-2是一种先进的人工智能系统,在包括遵循复杂指令、上下文学习、推理、聊天和编辑等各种任务中表现出色,跨不同的输入输出模式。它能够适应不同的风格并根据各种主题生成内容,其在音频处理方面的能力使其成为多模态基础建模领域的重大突破。CoDi-2代表了对创建全面系统的引人探索,即使是对其尚未训练的任务。

CoDi-2未来的发展方向计划通过完善上下文学习、扩展对话能力和支持其他模态来增强其多模态生成能力。它旨在通过使用扩散模型等技术来提高图像和音频的保真度。未来的研究可能还包括评估与其他模型的比较以了解其优势和限制。