谷歌研究揭示了生成无限词汇变换器(GIVT):在人工智能中开创了实值向量序列

谷歌研究的新发现:实现了无限词汇变换器(GIVT)在人工智能领域的突破

“`html

变形金刚最初被引入,并迅速崛起为自然语言处理中的主要架构。最近,它们在计算机视觉中也获得了巨大的流行度。Dosovitskiy等人证明了如何创建有效的图像分类器,通过将图像分解成补丁序列,线性嵌入这些补丁,然后将得到的特征序列馈送给变形金刚编码器,在高模型和数据规模上击败了基于CNN的架构。对于许多辨别性视觉任务,例如分割、检测和分类,这种方法目前是标准做法。然而,由于生成型变形金刚解码器从一些预定义的有限语言汇中消耗和预测离散令牌,将图像映射到一系列(未量化的)特征向量对于基于变形金刚的图像生成不适用。

这样的结构天生适合自然语言,并且仅解码器模型可以通过教师强制和强大的顺序生成建模进行有效训练。最近的研究利用了一种两阶段技术,通过使用量化矢量自动编码器(VQ-VAE)将图像映射到一系列离散令牌,然后学习一个变形金刚解码器来模拟潜在的离散令牌分布。这种方法旨在利用这些特性进行图像处理。通过简单地连接各种模态的词汇,包括文本和图像,这种基于VQ-VAE的图像标记化也允许交错的多模态生成模型。尽管这种两步方法在创建图像和多模态内容方面表现良好,但它也存在一些问题。

在VQ-VAE中,潜在编码序列可以保留多少数据以及视觉建模的大小取决于词汇表的大小。较短的词汇表可以促进潜在建模,但也会降低潜在编码的信息量,使得难以调节图像形成中的细节,并影响使用令牌进行密集预测或低级辨别任务的应用程序质量。增加词汇表的大小可以帮助解决这个问题,但这样做可能导致词汇使用不佳,迫使高保真度的VQ-VAE设置依赖各种复杂的方法,如熵损失或代码本拆分。此外,巨大的词汇表会导致占用大量内存的嵌入矩阵,在混合不同模态的词汇表的多模态场景中可能会出现问题。研究团队建议改变仅解码器变形金刚,以摒弃对离散令牌和因此固定的有限词汇的需求,以避免这些问题。

具体而言,谷歌DeepMind和谷歌研究团队建议使用真实值矢量序列来实现生成型变形金刚解码器。研究团队将其称为具有无限词汇的生成型变形金刚(GIVT),因为真实值矢量可以视为无限词汇。如图1所示,研究团队稍微修改了变形金刚解码器的设计(一共两次修改)。1)在输入端,研究团队使用线性嵌入一个真实值矢量序列,而不是使用一系列离散令牌查找有限词汇的嵌入;2)在输出端,研究团队预测一个连续分布的参数,而不是预测有限词汇的分类分布参数(通过logits)。研究团队使用教师强制和生成型变形金刚典型的因果性注意掩码来训练这个模型。此外,研究团队还对快速渐进式掩蔽双向建模进行了调查,类似于MaskGIT。

图1 使用相同的仅解码器设计,将连续的无限词汇版本(GIVT,右)与典型的离散令牌生成变形金刚(左)进行比较。GIVT通过输入端的查找离散令牌替换为线性嵌入的真实值矢量序列。在输出端,GIVT预测一个连续分布的参数,而不是预测有限词汇的分类分布参数(通过logits)。

“`

通过压平高分辨率图像创建的RGB像素序列是一个例子,这个序列即使在理论上GIVT可以应用于任何特征向量的序列,直接建模也可能非常困难。它可能过长或遵循复杂的分布。因此,研究团队首先使用高斯先验VAE训练一个低维潜空间,然后使用GIVT对其进行建模。这类似于VQ-VAEs的两阶段技术,也类似于潜在扩散模型的两阶段方法。研究团队还从序列建模文献中借鉴了一些推理策略(如温度抽样和无分类器引导)。

引人注目的是,仅依靠实值标记,这就产生了一个模型,其性能要么优于VQ技术,要么与之等效。以下简要描述了它们的主要贡献:

1. 研究团队使用UViM证明了GIVT在密集预测任务(包括语义分割、深度估计和图片合成)上相比传统的离散标记转换器解码器实现了类似或更好的性能。

2. 研究团队导出并证明了传统连续情况下采样方法(包括温度抽样、波束搜索和无分类器引导CFG)的有效性。

3. 研究团队通过KL项权重分析了VAE潜空间正则化水平与GIVT性质之间的关系。研究团队强调,在VAE和GIVT的训练中没有使用VQ-VAE文献中的复杂训练方法,例如隐表示的辅助损失、码本重新初始化或专门的优化算法。相反,他们只依赖于普通的深度学习工具箱方法。