斯坦福大学和Mila研究人员提出了Hyena:一种不需要注意力的替代方案,可以替代许多大规模语言模型的核心构建模块

Stanford and Mila researchers propose Hyena, an attention-free alternative that can replace the core building modules of many large-scale language models.

众所周知,开发和推出令人惊叹的生成模型,如ChatGPT和Bard,以及它们的基础技术GPT3和GPT4的竞赛,已经以巨大的力量席卷了人工智能领域,但在许多与我们日常问题相关的使用案例中,访问、训练和实际可行性方面仍存在许多挑战。

如果有人曾经玩过这些序列模型中的任何一个,那么可能会遇到一个肯定会破坏他们的兴奋的问题。那就是,他们可以发送给模型的输入长度。

如果他们是那些想要涉足这些技术核心并训练自己的定制模型的热衷者,整个优化过程使这几乎成为一项不可能的任务。

这些问题的核心是序列模型所利用的注意力模型的优化具有二次成本的特性。其中最大的原因之一是这些算法的计算成本和解决此问题所需的资源。这可能是一种非常昂贵的解决方案,特别是如果有人想要将其扩大规模,这导致只有少数集中的组织具有对这些算法的鲜明理解和真正控制权。

简单来说,注意力在序列长度上呈现二次成本。限制可访问的上下文量并进行扩展是一项昂贵的事务。

然而,不用担心;现在有一种名为Hyena的新架构,在自然语言处理社区中引起了轰动,人们认为它是我们所需要的救星。它挑战了现有注意力机制的主导地位,研究论文展示了它的潜力能够推翻现有系统。

Hyena由一支领先大学的研究团队开发,它在优化方面在多种次二次 NLP 任务上表现出色。在本文中,我们将仔细研究Hyena的主张。

本文建议,亚二次算子在规模上可以与注意力模型的质量相匹配,而在参数和优化成本方面不那么昂贵。基于有针对性的推理任务,作者提取了有助于其性能的三个最重要的属性。

  1. 数据控制
  2. 亚线性参数缩放
  3. 无限制的上下文

以这些要点为目标,他们引入了Hyena层次结构。这个新算子结合了长卷积和逐元素乘法门控,以在规模上与注意力的质量相匹配,同时降低计算成本。

进行的实验揭示了令人惊叹的结果。

  1. 语言建模

Hyena的扩展性在自回归语言建模上进行了测试,通过对WikiText103和The Pile等基准数据集的困惑度进行评估,结果显示Hyena是第一个无注意力、卷积架构,与GPT质量相匹配,总浮点运算量减少了20%。

在WikiText103上的困惑度(相同的分词器)。∗是来自(Dao等人,2022c)的结果。更深更窄的模型(Hyena-slim)具有较低的困惑度

对于训练到总令牌数(例如50亿)的The Pile上的困惑度(每个令牌总数的不同运行)。所有模型都使用相同的分词器(GPT2)。FLOP计数是针对150亿令牌运行的

  1. 大规模图像分类

该论文展示了Hyena作为图像分类的通用深度学习算子的潜力。在图像翻译中,他们将Hyena运算符插入到Vision Transformer(ViT)中的注意力层中,并与ViT的性能相匹配。

在CIFAR-2D上,我们在标准卷积架构中测试了2D版本的长卷积滤波器Hyena,它在准确性上比2D长卷积模型S4ND(Nguyen等,2022)提高了8%,速度提升了8%,参数减少了25%。

在亿级参数规模下取得的有希望的结果表明,注意力可能不是我们所需要的一切,而基于简单的指导原则和在机械可解释性基准测试上的评估的Hyena等更简单的次二次设计,为高效的大型模型奠定了基础。

随着这种架构在社区中引起的波澜,有趣的是看到Hyena是否会笑到最后。