遇见Prismer:一个由专家组成的开源视觉语言模型的集合
遇见Prismer:一个开源视觉语言模型的专家组成集合
最近有几种最新的视觉语言模型展示出了非凡的多模态生成能力。但通常情况下,这些模型需要在庞大的数据集上训练庞大的模型。研究人员介绍了Prismer,这是一种数据和参数高效的视觉语言模型,它使用一组领域专家作为可扩展的替代方案。通过从公开可用的预训练领域专家那里继承大部分网络权重,并在训练期间冻结它们,Prismer只需要训练少数组件。
大型预训练模型的泛化能力在许多不同任务上都非常出色。然而,这些功能的价格很高,需要大量的训练数据和计算资源进行训练和推理。语言领域中常见的可训练参数达到数千亿的模型通常需要具备yottaFLOP级别的计算预算。
解决与视觉语言学习相关的问题更加困难。尽管这个领域是语言处理的超集,但它还需要视觉和多模态思维的专业知识。通过使用其预测的多模态信号,Prismer是一种数据高效的视觉语言模型,它使用各种预训练领域专家。它可以处理视觉问答和图片字幕等视觉语言推理任务的例子。以棱镜为例,Prismer将一个通用的推理任务分成几个更小、更易管理的部分。
研究人员开发了一种基于视觉条件的自回归文本生成模型,以更好地利用各种预训练领域专家进行探索性的视觉语言推理任务。
尽管Prismer只是在公开可用的图像/alt-text数据的1300万个实例上进行了训练,但它在图像字幕、图像分类和视觉问答等任务中表现出强大的多模态推理能力,与许多最先进的视觉语言模型相媲美。研究人员还通过对Prismer的学习习惯进行了深入调查,发现了几个良好的特征。
模型设计:
Prismer模型以其编码器-解码器变压器版本展示,利用一大批已经训练好的专业领域专家加快训练过程。该系统由一个视觉编码器和一个自回归语言解码器组成。视觉编码器接收一个RGB和多模态标签序列(从冻结的预训练专家中预期的深度、表面法线和分割标签),作为输入,并输出一个RGB和多模态特征序列。通过这种交叉注意力训练,语言解码器被约束生成一系列文本标记。
优势:
- Prismer模型有许多好处,其中最显著的一个是在训练过程中非常高效地使用数据。为了实现这个目标,Prismer建立在预训练的仅视觉和仅语言骨干模型之上,以大幅减少达到其他最先进的视觉语言模型相等性能所需的GPU小时数。可以使用这些预训练参数来利用大量可用的网络规模知识。
- 研究人员还为视觉编码器开发了一种多模态信号输入。创建的多模态辅助知识可以更好地捕捉输入图像的语义和信息。Prismer的架构经过优化,最大化利用少量可训练参数的训练专家。
研究人员在Prismer中包括了两种类型的预训练专家:
- 骨干模型的专家 负责将文本和图片翻译成有意义的标记序列的预训练模型分别称为“仅视觉”和“仅语言”模型。
- 根据训练中使用的数据,话语模型的调节者可能以不同的方式标记任务。
特性
- 专业知识越丰富,结果越好。随着Prismer中模态专家数量的增加,其性能得到了提升。
- 更熟练的专业人员,更好的结果,研究人员用来创建受损的深度专家,并评估专家质量对Prismer性能的影响,他们使用随机从均匀分布中提取的噪声替换了部分预测的深度标签。
- 对无用意见的抵抗性,研究结果进一步表明,当引入预测噪声的专家时,Prismer的性能是稳定的。
查看 论文 和 Github。此研究的所有荣誉归功于此项目上的研究人员。此外,请不要忘记加入我们的26k+ ML SubReddit、Discord Channel和Email Newsletter,在那里我们分享最新的AI研究新闻、酷炫的AI项目等等。
使用Tensorleap的可解释性平台揭开深度学习的秘密
这篇文章介绍了Prismer:一个开源的视觉语言模型,具有一组专家的合奏。首发于MarkTechPost。