语言模型能够超越语言进行推理吗？探索复杂任务中多层隐藏状态中的隐含推理

语言模型的推理能力：揭秘多层隐藏状态在复杂任务中的隐含推理

大型语言模型（LLMs）在语言理解和推理等任务上展示出了卓越的能力，标志着我们与人工智能系统互动方式的一个范式转变。为了增强LLMs的熟练度，研究人员通常使用链式思维激励技术，这涉及到中间推理步骤来引导模型的响应。虽然这种技术类似于人类解决问题的方式，但它并没有充分利用LLMs的计算能力。本文的作者试图探索一种替代的推理方法。

思维链（CoT）方法显示出了很好的效果，但使用它们的缺点是会延迟所需的最终答案的生成。研究人员引入了一种新的方法，称为隐式思维链，顾名思义，它使CoT推理中涉及的步骤变得隐式，以便模型直接产生最终答案。

与显式的CoT推理不同，在隐式的CoT推理中，模型仅在训练阶段看到中间步骤，而在测试阶段则不看到。它将这些步骤处理在其内部状态中，并学会全面内化概念，绕过显式的推理。

研究人员采用了“教师训练”方法而不是传统的“教师强制”方法来实现隐式CoT推理。他们的策略首先涉及训练一个学生模型来读取教师的隐含状态，并利用其中一些状态来产生最终答案。然后，他们使用知识蒸馏，即将知识从较大的模型转移给较小的模型的过程。他们训练一个仿真器根据输入来预测教师的隐含状态。重要的是，这种仿真发生在模型的各个层之间，消除了显式推理步骤的需求。

最后一步涉及将仿真器与学生结合起来，根据仿真教师的思维过程产生最终输出。然后，对整个系统进行端对端优化，使学生模型能够发展出自己的推理方法，这可能与教师的方法不同。

研究人员在两个任务上进行了实验 – 多位数乘法和小学数学问题。结果表明，他们的方法使模型能够解决以前无法使用显式CoT解决的任务。他们观察到，GPT-2 Small模型在隐式CoT下对4位数乘法的准确率达到了97％，但在进行5位数乘法时表现不佳，这表明该技术的有效性取决于具有足够中间层进行所需计算的任务。他们还观察到，隐式CoT技术具有更高的推理速度，尤其适用于需要多个中间步骤的任务。

关于该技术存在几个主要问题是缺乏透明度，过多依赖教师的思维过程，以及与显式CoT相比的性能滞后。然而，这项工作只是建立隐式CoT的初步步骤，研究人员相信可以在此工作的基础上做出许多调整，以进一步优化这个过程并增强LLMs的推理能力。

AI Shorts,Applications,Artificial intelligence,Editors Pick,language model

语言模型能够超越语言进行推理吗？探索复杂任务中多层隐藏状态中的隐含推理

语言模型的推理能力：揭秘多层隐藏状态在复杂任务中的隐含推理

生成AI：2024年人力资源的革命性变革者

如何赢得每次抛硬币？

“Google AI 提出了一种简单高效的端到端基于扩...

通过人工智能释放可观察性的潜力

Google AI 推出 AltUp

这篇人工智能论文提供了机器学习流程中各种类...

使用大型语言模型开发的一切你需要知道的事项

成为SAS认证机器学习工程师所需的一切

人工智能