EPFL 和苹果研究人员开源 4M :一种用于训练跨数十种模态和任务的多模式基础模型的人工智能框架

全球领先的科研机构EPFL与苹果研究人员联手,开源独创技术:4M多模式基础模型AI框架,助力跨数十种模态与任务的训练能力

训练能够在没有多样化任务特定调整的情况下有效处理各种任务的大型语言模型 (LLMs) 在自然语言处理 (NLP) 领域越来越流行。尽管这些模型在 NLP 领域取得了出色的成功,但在视觉领域仍然需要创建同样具有灵活性和可伸缩性的模型。具备处理许多输入模态和输出任务的能力对于视觉的可伸缩性和多功能性至关重要。

视觉模型必须处理各种感官输入,包括图片、3D 和文本,并能执行各种任务。在视觉方面,仅训练 RGB 图像以实现单一目的的结果并没有像在原始文本上进行语言建模那样产生相同的效果,这导致了自然语言处理中的多任务能力。因此,训练应该利用各种模态和任务。

在构建具有理想视觉基础模型属性的模型时,数据、架构和训练目标是三个重要的可伸缩性因素。数据可伸缩性指的是利用更多的训练样本来提高性能的能力。在架构方面,可伸缩性意味着随着模型大小的增加性能提高并在大型训练时保持稳定。最后,可伸缩的训练目标应能在不导致计算成本激增的情况下有效处理越来越多的模态。

由瑞士联邦理工学院洛桑分校 (EPFL) 和 Apple 进行的最新研究旨在在这三个领域都实现可扩展性,并与不同的输入类型兼容。

为了克服这些障碍,研究团队提出了一种策略,即使用多模态掩码建模目标来训练单个集成的 Transformer 编码器-解码器。4M 代表 “大规模多模态掩码建模”,突出了该方法扩展到多个不同模态的能力。该方法结合了掩码建模和多模态学习的最佳特点:

  1. 强大的跨模态预测编码能力和共享场景表示
  2. 迭代采样使模型能用于生成任务
  3. 预训练目标是有效学习丰富表示

重要的是,4M 在通过多个过程保持效率的同时集成了这些优点。通过使用专门的分词器,可以将各种格式的模态转换为集合或序列的离散标记,以便单个 Transformer 可以在文本、边界框、图片或神经网络特征等多个模态上进行训练。这统一了它们的表示域。由于不再需要任务特定的编码器和头部,通过这种标记方法,Transformer 可以与任何模态一起使用,并保持完全参数共享,提高了兼容性、可伸缩性和共享性。

此外,尽管它处理大量的模态,但 4M 可以通过利用输入和目标掩码来高效训练。这需要从所有模态中随机选择一小部分标记作为模型输入,另一小部分作为目标。要实现可伸缩的训练目标,需要将输入和目标标记的数量与模态数量解耦。这样可以防止计算成本随模态数量增加而快速增加。他们使用 CC12M 和其他可用的单模态或文本-图像配对数据集,使用强大的伪标注网络创建模态对齐的绑定数据。

这种伪标注方法使得在不需要包含多模态/多任务注释的情况下,能够在不同的大规模数据集上进行训练。除了能够从一开始表现出色地执行许多重要的视觉任务外,4M 模型还可以进行微调,以在意想不到的下游任务和输入模态上取得令人瞩目的结果。

此外,必须使用多模态掩码建模目标来训练可操纵的生成模型,以便可以对任何模态进行条件处理。这允许用户意图的多样表达和各种多模态编辑任务。然后,对影响 4M 性能的参数进行了全面的剔除分析。这种全面的分析,结合该方法的简易性和通用性,证明了 4M 在许多视觉任务和未来发展中具有巨大潜力。