感知器AR:通用的、具有长上下文的自回归生成
感知器AR是一种通用的、具有长上下文的自回归生成模型
在过去几年中,自回归Transformer在生成建模领域取得了一系列突破。这些模型通过预测一个接一个地生成样本中的每个元素(例如图像的像素、文本的字符(通常以“令牌”块为单位)、音频波形的样本等)来生成样本。在预测下一个元素时,模型可以回顾之前创建的元素。
然而,随着输入元素的增加,Transformer的每个层变得更加昂贵,从而导致从实践角度而言,我们只能训练长度不超过约2,048个元素的深度Transformer。因此,大多数基于Transformer的模型在进行预测时,忽略了最近过去的所有元素(大约1,500个单词或1/6个小图像)。
相比之下,我们最近开发的Perceiver模型在多种实际任务中取得了出色的结果,最多可处理约100,000个元素。Perceiver使用交叉注意力将输入编码为潜在空间,将输入的计算要求与模型深度解耦。Perceiver在几乎每一层都花费固定的成本,无论输入大小如何。
尽管潜在空间编码可以一次处理所有元素,但自回归生成假设处理发生在逐个元素的过程中。为了解决这个问题,Perceiver AR提出了一个简单的解决方案:逐个对齐潜在空间与输入的最终元素,并仔细屏蔽输入,使潜在空间只能看到早期元素。
结果是一个架构(如上所示),可以处理与标准Transformer相比长达50倍的输入,同时部署方式与标准的仅解码器Transformer基本相同。
Perceiver AR在上下文长度或模型大小增加时比标准Transformer和Transformer-XL模型在实际意义上更好地扩展。这种特性使我们能够构建非常有效的长上下文模型。例如,我们发现在一个书籍生成任务中,上下文长度为8192的60层Perceiver AR的性能优于42层的Transformer-XL,并且在实际墙时钟时间上运行更快。
在标准的长上下文图像(ImageNet 64×64)、语言(PG-19)和音乐(MAESTRO)生成基准中,Perceiver AR产生了最先进的结果。通过解耦输入大小和计算预算来增加输入上下文会带来一些有趣的结果。
- 在评估时可以调整计算预算,使我们能够节省开销并平滑降低质量,或者增加开销以改善生成效果。
- 较大的上下文使Perceiver AR能够在计算开销相同的情况下优于Transformer-XL。我们发现更大的上下文可以在可承受的规模(约10亿个参数)下改善模型性能。
- Perceiver AR的样本质量对于生成元素的顺序几乎不敏感。这使得Perceiver AR易于应用于没有自然从左到右顺序的设置,例如跨越多个维度的图像等具有结构的数据。
使用一个钢琴音乐数据集,我们训练Perceiver AR从零开始生成新的音乐作品。由于每个新音符是基于之前的全部音符序列预测的,Perceiver AR能够产生具有高度旋律、和声和节奏连贯性的作品:
了解更多关于使用Perceiver AR的信息:
- 在Github上下载训练Perceiver AR的JAX代码
- 阅读我们在arXiv上的论文
- 查看我们在ICML 2022上的亮点演讲
查看Google Magenta博客文章以获取更多音乐!