Meta AI介绍CM3leon:创新的多模态游戏改变者,以无与伦比的计算效率提供最先进的文本到图像生成技术

Meta AI介绍CM3leon:创新的多模态游戏改变者,提供最先进的文本到图像生成技术

自然语言处理和根据文本输入生成图像的系统最近引起了人们对生成式人工智能模型的新兴兴趣。一项最新的Meta研究揭示了CM3leon(读作“变色龙”),这是一个可以生成文本和图像的单一基础模型。

通过大规模的检索增强预训练阶段和第二个多任务监督微调(SFT)阶段,CM3leon是首个使用从仅文本语言模型修改而来的配方开发的多模态模型。

CM3Leon的架构类似于流行的基于文本的模型,采用了仅解码器的transformer。CM3Leon的独特之处在于它可以接收和生成文本和图像。尽管与先前基于transformer的方法相比,CM3leon的训练计算量只有五分之一,但它在文本到图像生成方面提供了最先进的性能。

CM3leon具有自回归模型的灵活性和能力,以及训练和推理的效率和经济性。由于它可以根据任何给定的文本和图像序列生成文本和图像序列,CM3模型符合因果屏蔽混合模态模型的标准。这在之前只能执行其中一项任务的模型上有了显著改进。

研究人员表明,将大规模多任务指令微调应用于CM3leon的图片和文本生成中,可以极大地提高包括图像标题生成、视觉问答、基于文本的编辑和条件图像生成在内的任务性能。团队还添加了一个经过独立训练的超分辨率阶段,以从原始模型输出中创建更高分辨率的图像。

根据研究结果,CM3Leon的性能超越了谷歌的Parti文本到图像模型。它在最受欢迎的图片生成基准(零样本MS-COCO)上获得了4.88的FID(Fréchet Inception Distance)分数,创造了新的技术水平。这一成功展示了检索增强的威力以及缩放技术在决定自回归模型输出方面的重要性。CM3leon在视觉语言任务(如长篇字幕和视觉问答)方面表现出色。尽管只在包含30亿文本标记的数据集上进行了训练,CM3Leon的零样本性能与在更大数据集上训练的更大模型相媲美。

CM3leon在各种任务上的令人印象深刻的性能使团队对能够以更高的准确性生成和理解图像抱有希望。