Google AI 推出 AltUp

谷歌AI 呈现全新产品 AltUp

Transformer神经网络已经成为一个焦点,展示出在自然语言处理和计算机视觉、机器人和自动驾驶等新兴应用中的显著效果。但是,这些模型的规模不断增加,主要面临与计算和推理延迟相关的成本挑战。

这就让人们需要创新解决方案来提升可扩展性而不带来不切实际的计算负担。Google AI的新方法AltUp正是为此设计,旨在增强令牌表示而不增加计算开销。

虽然像Switch Transformer、Expert Choice和V-MoE这样的模型已经在高效扩展网络参数方面取得了进展,但仍然存在一个关于令牌表示维度扩展的研究空白。而AltUp就是在这方面脱颖而出的。

AltUp的独特之处在于它可以将扩展的表示向量分区成大小相等的块,并且仅在每个层处理一个块。它的有效性在于一种预测-校正机制,允许推断出未处理块的输出。

根据Google AI的博客,通过保持模型维度并避免计算量的平方增加,AltUp成为更大Transformer网络带来的挑战的一个有希望的解决方案。

AltUp的机制深入探讨了令牌嵌入的复杂性,演示了如何在不引发计算复杂性激增的情况下扩展它们。该方法涉及在一个块上调用一个1x宽度的Transformer层,称为“activated”块,同时使用一个轻量级预测器。

该预测器计算所有输入块的加权组合,通过轻量级校正器进行修正,从而基于激活的块更新未激活的块。预测和校正步骤都涉及最少的向量加法和乘法,使它们比传统的Transformer层快得多。

AltUp对T5模型在基准语言任务中的评估展示了其以相同的准确性超越密集模型的始终能力。使用AltUp增强的T5 Large模型在GLUE、SuperGLUE、SQuAD和Trivia-QA基准测试中分别实现了27%、39%、87%和29%的显著加速。

值得注意的是,AltUp的相对性能改进在较大的模型上更为突出,凸显了它在模型规模增大时的可扩展性和增强效果。研究人员对AltUp的扩展,即Recycled-AltUp,进一步展示了所提方法的适应性。

Recycled-AltUp通过复制嵌入而不是扩展初始令牌嵌入,展示了在不引入明显减速的情况下改善预训练性能的严格结果。

总体而言,本论文的目标和团队的贡献在使大规模Transformer模型更具实用性和可应用性方面具有重要意义。