CMU研究人员推出FROMAGe:一种能够高效引导冻结的大型语言模型(LLMs)生成与图像交错的自由文本的人工智能模型
巨大的大型语言模型(LLMs)能够展示出人类般的表达能力和对复杂问题的回应,因为它们在大规模的文本语料库上进行了规模化训练。虽然令人惊叹,但大多数最先进的LLMs都是在从互联网下载的纯文本数据上进行训练的。它们通常无法吸收基于实际世界的概念,因为它们缺乏丰富的视觉线索。因此,目前大多数使用的语言模型在需要视觉推理和基于视觉的任务上存在局限性,也无法生成图像。本文演示了如何有效地利用冻结的LLM在多模态(图像和文本)输入和输出方面的能力。
他们训练语言模型学习一个新的[RET]标记,用于图像-文本检索。他们还使用对比学习进行线性映射,将与其关联图片的[RET]嵌入的标题映射到视觉嵌入中。在训练过程中,只有线性层和[RET]标记嵌入的权重被更新,大部分模型保持冻结状态。因此,他们提出的方法在内存和计算上非常高效。一旦训练完成,模型将展示出多种技能。除了原始的纯文本LLM生成文本的能力外,它还具有新的多模态对话和推理技能。他们提出的方法是模型无关的,可以用于基于未来更强大或更大的LLMs的版本。
这种语言模型被训练学习一个表示图像的新的[RET]标记,并使用对比学习来知道一个线性映射,将与其匹配图片的[RET]嵌入的标题映射到视觉嵌入中。在训练过程中,只有线性层和[RET]标记嵌入的权重被更新,大部分模型保持固定状态。因此,他们提出的方法在内存和计算上非常高效。一旦训练完成,他们的模型将展示出多种技能。除了原始的纯文本LLM生成文本的能力外,它还具有新的多模态对话和推理技能。他们提出的方法是模型无关的,可以用于基于未来更强大或更大的LLMs的版本。
- Google AI推出MediaPipe扩散插件,实现设备上可控的文本到图像生成
- 能够严格检查的LLMs是否能够生成数学证明?了解LeanDojo:一个开源的AI游乐场,提供工具包、基准测试和模型,用于大型语言模型在Lean证明助手中证明形式化定理
- 百度Ernie 3.5在中文语言AI领域脱颖而出:但它真的比ChatGPT更好吗?
展示了自回归LLMs执行的文本到图像检索的敏感性增强。他们的主要贡献之一是通过图片标题和对比学习有效地训练具有视觉锚定的LLMs的Frozen Retrieval Over Multimodal Data for Autoregressive Generation(FROMAGe)模型。虽然以前的算法需要大规模的交错图像-文本数据,但FROMAGe仅通过图像标题配对就能够开发出强大的少样本多模态能力。与以前的模型相比,他们的方法在处理冗长和复杂的自由文本时更加准确。演示了如何利用预训练的纯文本LLMs的当前技能(包括上下文学习、输入敏感性和对话生成)来处理需要视觉输入的任务。
他们展示了:(1)从交错的图片和文本序列进行上下文图像检索;(2)在视觉对话上具有良好的零样本性能;(3)对于图像检索具有增强的话语上下文敏感性。他们的结果为能够学习和生成冗长、连贯的多模态序列的模型打开了大门。他们还突出了预训练的纯文本LLMs在基于视觉的任务上的能力。为了促进更多的研究和发展,他们的代码和预训练模型将很快向公众提供。