变形金刚如何处理较长的输入?卡内基梅隆大学和谷歌研究员揭示了一种新的方法(FIRE):相对位置编码的功能插值

如何有效处理较长的输入?卡内基梅隆大学和谷歌研究员揭示了变形金刚中的新方法(FIRE):基于相对位置编码的功能插值

基于Transformer的语言模型近年来提升了自然语言处理(NLP)领域。它们能够理解和生成类似人类的文本,为多个NLP任务带来了突破性的改进。然而,这些模型存在一个严重的缺陷:当面对比训练中遇到的更长的输入序列时,它们的性能通常明显下降。这种限制激发了人们寻找增强它们在实际应用中处理更长上下文能力的方法的需求。

尽管Transformer架构本身在理论上能够处理不同的输入长度,但训练过程中所使用的位置编码方案限制了模型在处理更长输入时的效果。为了应对这些挑战,卡内基梅隆大学、谷歌研究和谷歌DeepMind的研究人员提出了一种名为Functional Interpolation for Relative Positional Encoding(FIRE)的独特方法。FIRE的目的是改善Transformer模型在处理长上下文长度时的泛化能力。通过一种称为渐进插值的全新方法,实现了对功能性相对位置编码的插值。

FIRE的基本思想是为Transformer模型提供更灵活的手段来理解序列中的标记位置。FIRE提供了一种动态且可学习的机制,用于编码位置信息,而不是使用预定义的位置编码方案。这种策略的重要性在于,它使模型能够根据所遇到的特定上下文和序列长度来修改和调整其对位置的理解。

FIRE能够概念化描述一些广泛使用的相对位置编码技术,如Kerple、Alibi和T5的相对位置编码(RPE),这是其主要优点之一。这意味着FIRE在保持与现有方法和模型的兼容性的同时,同时提供了增强的性能。

已进行了一系列实验证明了FIRE装备的模型在需要理解长上下文的情况下的性能。这些评估涵盖了各种基准测试,如零-shot语言建模和长文本输入问题。使用这种新方法改进的模型在处理更长上下文时表现出更好的泛化性能。这意味着当面对更长的序列时,个体更能够理解和生成有意义的文本,这在实际应用中非常有用。

研究人员总结了FIRE的主要贡献如下:

  1. 引入了一种名为FIRE的新型功能性相对位置编码技术。FIRE可以表示流行的位置编码方法,如Alibi、Kerple和T5的RPE,并将这些方法集合在一起。
  1. FIRE在各种数据集和基准测试中的零-shot和微调场景中超越了当前技术,表现出高长度泛化性能。在C4语言建模问题上,它甚至比最佳基准模型提高了2.28个困惑度,展示了其实用性。它在SCROLLS长文本测试中比其他技术平均高出1个点以上。
  1. FIRE通过可视化学习的位置嵌入,展示了捕捉本地和反本地位置偏差的能力,增强了在不同任务中的适用性。

总而言之,FIRE为Transformer模型的一个持久问题提供了一个很好的解决方案。相对位置编码以一种灵活且可学习的方式进行处理,使得这些模型即使面对以前从未见过的长度的输入序列时,仍能保持高性能。