见到YaRN:一种计算高效的方法,可以扩展基于Transformer的语言模型的上下文窗口,其所需的标记数量比之前的方法少10倍,并且训练步骤少2.5倍

YaRN是一种计算高效的方法,可以扩展基于Transformer的语言模型的上下文窗口,标记数量少10倍,训练步骤少2.5倍

像聊天 GPT 这样的大型语言模型可以考虑文本中的更广泛上下文,使其能够理解并生成更连贯和上下文相关的回复。这在文本补全等任务中尤其有用,因为理解整个文档的上下文至关重要。

这些模型可以捕捉文档中复杂的关系和依赖,即使它们跨越多个标记。在 GPT-3 或 GPT-4 等大型语言模型的语境中,上下文窗口扩展指的是模型在生成或理解语言时考虑的文本或标记范围。这对于文档摘要等任务非常有价值,因为摘要需要基于对文档的全面理解。

旋转位置嵌入(RoPE)增强了模型处理序列数据和捕捉序列内部位置信息的能力。然而,这些模型必须能够推广到它们所训练的序列长度之外。Nous Research、Eleuther AI 和日内瓦大学的研究人员提出了 YaRN(Yet another RoPE extension method),它可以计算扩展这些模型上下文窗口的有效方式。

RoPE 使用复数旋转进行位置嵌入,这种旋转位置嵌入允许模型在不仅依赖固定位置嵌入的情况下有效地编码位置信息。这将有助于模型更准确地捕捉长距离的依赖关系。控制旋转的参数是在模型的训练过程中学习的。模型可以自适应地调整旋转以最佳地捕捉标记之间的位置关系。

他们采用的方法是压缩变压器,它们使用外部存储器机制来扩展上下文窗口。它们从外部存储器库中存储和检索信息,使它们能够访问超出其标准窗口大小的上下文。扩展了变压器架构以包括存储器组件,使模型能够保留并利用过去标记或示例的信息。

他们的实验表明,YaRN 只需进行 400 步训练即可成功实现 LLMs 的上下文窗口扩展,这相当于模型原始预训练语料库的 0.1%,比之前的 25 减少了 10 倍,比之前的 7 减少了 2.5 倍的训练步骤。这使其在训练时具有非常高的计算效率,而不会增加额外的推理成本。

总体而言,YaRN 改进了所有现有的 RoPE 插值方法,并取代了 PI,没有任何副作用和最小的实施工作。经过微调的模型在多项基准测试中保留了其原始能力,同时能够处理非常大的上下文大小。未来的研究工作可以涉及内存增强,将其与传统的自然语言处理模型结合起来。基于变压器的模型可以结合外部存储器库来存储上下文相关信息,用于问题回答或机器翻译等下游任务。