使用单一的视觉语言模型处理多个任务

'单一视觉语言模型处理多个任务'

智能的一个关键方面是在给出简短指令时,能够迅速学会执行新任务的能力。例如,一个孩子在看了几张动物的图片后,可以在动物园中识别真实的动物,尽管两者之间存在差异。但是对于典型的视觉模型来说,要学习一个新任务,必须在该任务上训练数万个特定标记的示例。如果目标是在图像中计数和识别动物,比如“三只斑马”,就需要收集成千上万张图像,并对每张图像进行数量和物种的注释。这个过程效率低下、昂贵且资源密集,需要大量的注释数据,并且每次面临新任务时都需要训练一个新模型。作为DeepMind解决智能的使命的一部分,我们探索了一种是否可以通过仅有有限的任务特定信息来简化和提高这个过程的替代模型。

今天,在我们的论文预印版中,我们介绍了Flamingo,一个单一的视觉语言模型(VLM),在各种开放式多模态任务的少样本学习中创造了新的技术水平。这意味着Flamingo可以只用少数几个任务特定的示例(在“几个快照”中)解决一些困难的问题,而无需额外的训练。Flamingo的简单接口使其成为可能,它的输入是由交错的图像、视频和文本组成的提示,然后输出相关的语言。

与大型语言模型(LLM)的行为类似,它们可以通过处理任务的示例来处理语言任务,Flamingo的视觉和文本接口可以引导模型解决多模态任务。给定几个示例对的视觉输入和在Flamingo的提示中组成的预期文本响应,可以向模型提问一个包含新图像或视频的问题,然后生成答案。

图1. 给定两个动物图片示例和一个标识它们名称和所在地的文本,Flamingo可以在给定一个新图像时模仿这种风格输出相关的描述:“这是一只火烈鸟。它们在加勒比海发现。”。

在我们研究的16项任务中,Flamingo在每个任务仅给出4个示例的情况下超过了所有以前的少样本学习方法。在几种情况下,同一Flamingo模型的性能优于为每个任务单独进行微调和优化,并使用多个数量级更多的任务特定数据的方法。这应该使非专业人士能够快速而轻松地在手头的新任务上使用准确的视觉语言模型。

图2. 左:Flamingo在16个不同的多模态任务上的少样本性能与任务特定最新技术性能的对比。右:我们16个基准测试的部分示例输入和输出。

在实践中,Flamingo通过在两者之间添加新的架构组件,将大型语言模型和强大的视觉表示融合在一起(它们分别经过预训练并冻结)。然后,它使用仅来自网络的互补大规模多模态数据的混合进行训练,而不使用任何用于机器学习目的的注释数据。按照这种方法,我们从Chinchilla开始,这是我们最近介绍的计算优化的70亿参数语言模型,来训练我们的最终Flamingo模型,一个80亿参数的VLM。完成这个训练后,Flamingo可以通过简单的少样本学习直接适应视觉任务,而无需任何额外的任务特定调整。

我们还测试了模型在我们当前基准测试之外的定性能力。作为这个过程的一部分,我们比较了我们模型在与性别和肤色相关的图像标题任务上的表现,并通过Google的Perspective API对我们模型生成的标题进行评估,该API评估文本的毒性。虽然初步结果是积极的,但是在多模态系统中评估伦理风险的更多研究是至关重要的,我们敦促人们在考虑将这些系统部署到现实世界之前,评估和认真考虑这些问题。

多模态能力对于重要的人工智能应用非常关键,例如帮助视觉障碍者应对日常的视觉挑战,或者改进对网络上令人讨厌的内容的识别。Flamingo使得能够在不修改模型的情况下,高效地适应这些示例和其他任务。有趣的是,该模型展示了即插即用的多模态对话能力,如此处所见。

图3 – Flamingo可以直接进行多模态对话,如图所示,讨论了OpenAI的DALL·E 2生成的一个不太可能的“汤怪兽”图像(左侧),并通过了著名的斯特鲁普测试(右侧): #https://openai.com/dall-e-2/

Flamingo是一组高效且通用的模型,可以应用于图像和视频理解任务,并且只需要很少的特定任务示例。像Flamingo这样的模型有很大的潜力在实际中造福社会,我们将继续提高它们的灵活性和能力,以便安全地部署,造福每个人。Flamingo的能力为学习的视觉语言模型带来了丰富的互动方式,可以实现更好的可解释性和令人兴奋的新应用,例如一个在日常生活中帮助人们的视觉助手 – 我们对迄今为止的结果感到非常高兴。