谷歌研究介绍了SPAE:一种用于多模态生成的自编码器,同时使用冻结的大型语言模型(LLMs)

Google Research introduced SPAE a multi-modal generative autoencoder that simultaneously uses frozen large language models (LLMs).

大型语言模型(LLM)在自然语言处理和自然语言理解方面的非凡能力使其迅速获得了巨大的流行度。这一人工智能领域的最新发展彻底改变了人与计算机之间的互动方式。OpenAI最近开发的这个备受关注的模型就是著名的ChatGPT。基于GPT的变形器架构,该模型以逼真的对话模仿人类,能够进行问答、内容生成、代码补全、机器翻译和文本摘要等各种任务。

LLM能够通过其词汇嵌入捕捉关于世界的深层概念知识。但研究人员仍在努力使冻结的LLM能够在给定正确的视觉表示作为输入时完成视觉模态任务。研究人员一直建议使用一个向量量化器,将图像映射到冻结LLM的令牌空间,从而将图像转化为LLM能够理解的语言,使LLM的生成能力能够执行条件图像理解和生成任务,而无需对图像-文本对进行训练。

为了解决这个问题并促进这个跨模态任务的实现,来自Google Research和卡内基梅隆大学的研究人员提出了语义金字塔自动编码器(SPAE),这是一种用于多模态生成的自动编码器,结合了冻结的大型语言模型。SPAE生成的词汇序列具有丰富的语义信息,同时保留了信号重构的细节。在SPAE中,团队将自动编码器架构与层次金字塔结构相结合,与以往的方法相反,SPAE将图像编码为可解释的离散潜在空间,即单词。

SPAE的金字塔形表示具有多个尺度,金字塔的底层优先考虑捕捉图像重构的细节,而金字塔的上层则包含语义中心概念。该系统通过使用更少的令牌来处理需要知识的任务,并使用更多的令牌来处理需要生成的任务,可以动态调整令牌长度。该模型是独立训练的,没有通过任何语言模型进行反向传播。

为了评估SPAE的有效性,研究人员进行了图像理解任务的实验,包括图像分类、图像字幕和视觉问答。结果表明LLM在处理视觉模态和内容生成、设计支持、交互式叙事等方面表现出色。研究人员还使用上下文去噪方法来说明LLM的图像生成能力。

团队总结了以下贡献:

  1. 这项工作提供了一种直接使用冻结的语言模型生成视觉内容的方法,该模型只通过语言令牌进行训练。
  1. 提出了语义金字塔自动编码器(SPAE),用于生成可解释的语义概念和细粒度细节的表示。分词器生成的多语言语言令牌具有可自定义长度,使其在捕捉和传达视觉信息的细微之处方面更具灵活性和适应性。
  1. 还引入了一种渐进提示方法,实现了语言和视觉模态的无缝集成,从而生成具有更好质量和准确性的综合和连贯的跨模态序列。
  1. 该方法在相同的上下文条件下,将少样本图像分类准确率的绝对边际提高了25%。

总之,SPAE在连接语言模型和视觉理解方面取得了重要突破。它展示了LLM在处理跨模态任务方面的巨大潜力。