在一份新的AI论文中,卡内基梅隆大学和谷歌研究员重新定义了语言模型的输出:如何通过使用暂停标记来延迟回答,从而提升问答和推理任务的性能

美妆与时尚专家分享:卡内基梅隆大学及谷歌研究员创新,采用暂停标记延迟回答,大幅提升问答和推理任务的精准度

通过基于变压器的因果语言模型,快速生成令牌。该模型接收K个前置令牌,然后在每个隐藏层中迭代计算K个中间向量,以生成第(K + 1)个令牌。该模块在上一层的输出向量上操作,而每个向量本身都是一个模块的输出。尽管整个过程复杂,但必须满足一个异常限制:确定下一个令牌所需的操作数量受到已查看的令牌数量的限制。

卡耐基梅隆大学和谷歌最近进行的一项研究调查了将虚假令牌添加到仅解码模型的输入中以延迟其输出的策略。在这项工作中,他们决定选择一个(可学习的)暂停令牌,并将其追加到输入中的一个或多个序列中。要在最后一个令牌被看到后获取模型的答案,只需简单地忽略此前的匹配输出即可。

重要的是,研究人员考虑到在推理和下游微调和预训练过程中插入此类延迟的影响。这种看似微小的调整在实际世界中可能会产生什么样的效果目前无法知晓。延迟创建了一个潜在的“更宽”计算通道,变压器可能会利用这一通道来提升性能。一个更简单的结果可能是模型忽略令牌引起延迟的能力并继续运行。毕竟,令牌本身以及通过嵌入单个令牌引入的少量新参数都不足以对训练数据中的任何额外信息进行编码。这些无意义的令牌可能会掩盖有用的信号并削弱模型。

该团队进行了实证评估,以了解在所有训练和推理阶段引入(追加)延迟的结果。他们对在C4上进行了训练的具有10亿和130M参数的仅解码模型进行了暂停训练的研究,并在此后进一步微调了涵盖抽取性问题回答、推理、常识理解和事实回忆的九个下游任务。最重要的是,这种方法提高了SQuAD抽取性问题回答任务中1B模型的完全匹配分数达到了18%。同样,他们观察到常识QA的常识理解任务中的8%增长,以及GSM8k推理任务中相较于标准模型7.5%的准确率的1%增加。

另一方面,如果仅在最终微调阶段(使用基准预训练模型)引入令牌,则只有少数情况会看到改进。该团队还进行了一系列关键消融实验,包括:

  1. 发现追加令牌通常优于前置令牌。
  2. 发现对于任何下游任务,存在最佳数量的令牌。
  3. 发现减少推理时令牌的数量会导致性能逐渐下降。

该团队认为,下一个重要的步骤将是开发直接将延迟用于普通预训练模型的方法。他们设想他们的工作扩展了延迟下一个令牌预测范式,因此在理论和应用研究方向上开启了几个新的可能性。