随着OpenFlamingo团队发布了OpenFlamingo v2，该团队在3B、4B和9B规模上推出了五个新的多模态模型，这些模型表现优于之前的模型

来自华盛顿大学、斯坦福大学、AI2、加州大学圣塔芭芭拉分校和谷歌的一组研究人员最近开发了OpenFlamingo项目，旨在构建类似DeepMind Flamingo团队的模型。OpenFlamingo模型可以处理任何混合文本和图像序列，并生成文本作为输出。字幕、视觉问答和图像分类只是可以从中受益的活动之一，模型能够在上下文中进行采样。

现在，该团队宣布发布第二版，包括三个训练有素的OpenFlamingo模型，分别是3B、4B和9B级别。这些模型是从开源模型派生而来的，其许可证比LLaMA更宽松，包括Mosaic的MPT-1B和7B以及Together.XYZ的RedPajama-3B。

研究人员通过将视觉特征添加到已经预训练的静态语言模型的层中，使用了Flamingo建模范式。视觉编码器和语言模型保持静态，但连接模块使用类似于Flamingo的网络抓取的图像文本序列进行训练。

该团队在视觉语言数据集上测试了他们的字幕、视觉问答和分类模型。研究结果显示，该团队在v1版本和OpenFlamingo-9B v2模型之间取得了显著进展。

他们结合了七个数据集和五个不同的上下文来评估模型的效果：零次、四次、八次、十六次和三十二次。他们将OpenFlamingo（OF）模型的OF-3B和OF-4B级别与Flamingo-3B和Flamingo-9B级别进行比较，并发现平均而言，OpenFlamingo（OF）的性能超过了Flamingo的80%。研究人员还将他们的结果与PapersWithCode上发布的优化SoTA进行了比较。仅在在线数据上进行预训练的OpenFlamingo-3B和OpenFlamingo-9B模型，在32个上下文实例中实现了超过55%的微调性能。OpenFlamingo的模型在0次和32次上下文中相对于DeepMind的性能平均落后10%和15%。

该团队在训练和提供最先进的多模态模型方面不断取得进展。接下来，他们的目标是提高用于预训练的数据质量。

AI Shorts,Applications,Artificial intelligence,Editors Pick,language model,Large Language Model,Machine learning,Staff,Tech News,Technology,Uncategorized

随着OpenFlamingo团队发布了OpenFlamingo v2，该团队在3B、4B和9B规模上推出了五个新的多模态模型，这些模型表现优于之前的模型

如何在Snowflake上搭建一个流式半结构化分析平台

使用Tenacity在Python中征服重试：一个端到端教程

麻省理工学院的研究人员引入重新采样来改善生...

构建语言模型：一步一步的BERT实现指南

认识Wanda：一种简单有效的大型语言模型修剪方法

使用Amazon SageMaker Canvas，无需编码即可快...

遇见ChatGLM2-6B 开源双语（中英文）聊天模型C...

转换专业AI训练-遇见LMFlow：一个有前景的工具...

机器学习