随着OpenFlamingo团队发布了OpenFlamingo v2,该团队在3B、4B和9B规模上推出了五个新的多模态模型,这些模型表现优于之前的模型

来自华盛顿大学、斯坦福大学、AI2、加州大学圣塔芭芭拉分校和谷歌的一组研究人员最近开发了OpenFlamingo项目,旨在构建类似DeepMind Flamingo团队的模型。OpenFlamingo模型可以处理任何混合文本和图像序列,并生成文本作为输出。字幕、视觉问答和图像分类只是可以从中受益的活动之一,模型能够在上下文中进行采样。

现在,该团队宣布发布第二版,包括三个训练有素的OpenFlamingo模型,分别是3B、4B和9B级别。这些模型是从开源模型派生而来的,其许可证比LLaMA更宽松,包括Mosaic的MPT-1B和7B以及Together.XYZ的RedPajama-3B。

研究人员通过将视觉特征添加到已经预训练的静态语言模型的层中,使用了Flamingo建模范式。视觉编码器和语言模型保持静态,但连接模块使用类似于Flamingo的网络抓取的图像文本序列进行训练。

该团队在视觉语言数据集上测试了他们的字幕、视觉问答和分类模型。研究结果显示,该团队在v1版本和OpenFlamingo-9B v2模型之间取得了显著进展。

他们结合了七个数据集和五个不同的上下文来评估模型的效果:零次、四次、八次、十六次和三十二次。他们将OpenFlamingo(OF)模型的OF-3B和OF-4B级别与Flamingo-3B和Flamingo-9B级别进行比较,并发现平均而言,OpenFlamingo(OF)的性能超过了Flamingo的80%。研究人员还将他们的结果与PapersWithCode上发布的优化SoTA进行了比较。仅在在线数据上进行预训练的OpenFlamingo-3B和OpenFlamingo-9B模型,在32个上下文实例中实现了超过55%的微调性能。OpenFlamingo的模型在0次和32次上下文中相对于DeepMind的性能平均落后10%和15%。

该团队在训练和提供最先进的多模态模型方面不断取得进展。接下来,他们的目标是提高用于预训练的数据质量。