语言模型能够超越语言进行推理吗?探索复杂任务中多层隐藏状态中的隐含推理

语言模型的推理能力:揭秘多层隐藏状态在复杂任务中的隐含推理

大型语言模型(LLMs)在语言理解和推理等任务上展示出了卓越的能力,标志着我们与人工智能系统互动方式的一个范式转变。为了增强LLMs的熟练度,研究人员通常使用链式思维激励技术,这涉及到中间推理步骤来引导模型的响应。虽然这种技术类似于人类解决问题的方式,但它并没有充分利用LLMs的计算能力。本文的作者试图探索一种替代的推理方法。

思维链(CoT)方法显示出了很好的效果,但使用它们的缺点是会延迟所需的最终答案的生成。研究人员引入了一种新的方法,称为隐式思维链,顾名思义,它使CoT推理中涉及的步骤变得隐式,以便模型直接产生最终答案。

与显式的CoT推理不同,在隐式的CoT推理中,模型仅在训练阶段看到中间步骤,而在测试阶段则不看到。它将这些步骤处理在其内部状态中,并学会全面内化概念,绕过显式的推理。

研究人员采用了“教师训练”方法而不是传统的“教师强制”方法来实现隐式CoT推理。他们的策略首先涉及训练一个学生模型来读取教师的隐含状态,并利用其中一些状态来产生最终答案。然后,他们使用知识蒸馏,即将知识从较大的模型转移给较小的模型的过程。他们训练一个仿真器根据输入来预测教师的隐含状态。重要的是,这种仿真发生在模型的各个层之间,消除了显式推理步骤的需求。

最后一步涉及将仿真器与学生结合起来,根据仿真教师的思维过程产生最终输出。然后,对整个系统进行端对端优化,使学生模型能够发展出自己的推理方法,这可能与教师的方法不同。

研究人员在两个任务上进行了实验 – 多位数乘法和小学数学问题。结果表明,他们的方法使模型能够解决以前无法使用显式CoT解决的任务。他们观察到,GPT-2 Small模型在隐式CoT下对4位数乘法的准确率达到了97%,但在进行5位数乘法时表现不佳,这表明该技术的有效性取决于具有足够中间层进行所需计算的任务。他们还观察到,隐式CoT技术具有更高的推理速度,尤其适用于需要多个中间步骤的任务。

关于该技术存在几个主要问题是缺乏透明度,过多依赖教师的思维过程,以及与显式CoT相比的性能滞后。然而,这项工作只是建立隐式CoT的初步步骤,研究人员相信可以在此工作的基础上做出许多调整,以进一步优化这个过程并增强LLMs的推理能力。