巴黎索邦大学研究人员推出UnIVAL:一种用于图像、视频、音频和语言任务的统一AI模型

Paris-Sorbonne University researchers launch UnIVAL a unified AI model for image, video, audio, and language tasks.

创建通用模型的一个重大进展是出现了大型语言模型(LLMs)。它们惊人的文本理解和生成性能通常基于Transformer架构和单个下一个令牌预测目标。然而,它们目前受到无法访问文本外信息的限制。这强调了需要可靠的多模态模型,能够使用各种模态执行各种任务。

最近的研究努力致力于通过构建具有更强大功能的多模态模型来改进任务/模态特定技术。其中一些方法试图包括多于两种模态的模态,例如图像/视频-文本,尽管其中大部分努力都致力于图像-文本任务。

为了解决这个问题,索邦大学的研究人员首先开发了可以解决任何问题的通用模型。他们引入了UnIVAL,一种不依赖于任何单一模态的方法。UnIVAL整合了两种模态和四种(文本、图片、视频和音频)。

UnIVAL是第一个使用统一的架构、词汇、输入/输出格式和训练目标来解决图像、视频和音频语言问题的模型,而不需要大量的训练数据或庞大的模型大小。这个拥有0.25亿个参数的模型的性能与特定模态的先前技术相当。研究人员在几个任务上获得了新的SoTA,使用的模型大小相似。

他们对预训练任务和模态之间的相互作用和知识转移的研究表明,与传统的单任务预训练相比,多任务预训练的价值。他们还发现,在额外的模态上对模型进行预训练可以提高其对未训练模态的泛化能力。特别是,在音频-文本问题上微调后,UnIVAL可以达到与SoTA相当的性能,而无需音频预训练。

基于以前的研究,该团队还提出了一种通过权重插值合并多模态模型的新调查。他们证明,在权重空间中进行插值可以成功地结合多个微调权重的技能,为各种多模态任务使用统一的预训练模型创建更强大的多任务模型时,没有任何推理开销。因此,可以通过平均不同的微调权重和多任务预训练来使用和重复多样化的多模态活动。权重插值以前从未与多模态基线模型进行过测试,但这项研究是第一个成功实施此项研究。

研究人员还提到了UnIVAL的两个重要缺点:

  1. UnIVAL容易产生幻觉。特别是在视觉描述中可能会发明新的物体(物体偏差),更注重一致性而不是准确性。
  2. 它在遵循复杂指令方面有困难。他们发现当给出复杂的指令时,例如从一组相似的物体中挑选出一个物体,找到远离或非常接近的物体,或者识别数字时,模型的性能下降。

研究人员希望他们的研究结果能够激励其他科学家,并加快构建新的模态不可知通用助理代理的进程。