用于LLM的思维链提示

LLM思维链提示

一种实用且简单的与LLM进行“推理”的方法

(Photo by Matthew Lancaster on Unsplash)

大型语言模型(LLMs)的成功源于我们能够在大规模文本语料库中预训练(使用语言建模目标)仅解码器的Transformer模型。鉴于我们预训练了足够大的模型,LLMs具备了令人难以置信的少样本学习能力。换句话说,这意味着我们只需通过构建一个文本提示(可能包含几个正确输出的示例),然后让LLM生成正确答案,就可以解决各种不同的问题(例如翻译、句子分类、摘要等)。

尽管LLMs非常强大,但它们在解决某些问题时一直存在一些困难。特别是对于推理问题(例如算术或常识推理),这些模型往往难以解决。最初解决这个问题的尝试是,在监督数据集上通过微调LLMs和任务特定的验证模块来解决各种推理问题的解决方案和解释[3, 4]。然而,最近的研究发现,少样本学习可以更容易地解决这个问题。

“本文的目标是赋予语言模型生成思维链的能力——一系列连贯的中间推理步骤,从而得出问题的最终答案。” —— 引自[1]

具体而言,链式思维(CoT)提示[1]是一种最近提出的技术,通过少样本学习改善LLM在基于推理的任务上的性能。类似于标准提示技术,CoT提示将几个解决推理问题的示例解法插入到LLM的提示中。然后,每个示例都与一系列推理步骤(或解决问题的中间推理步骤)配对。LLM通过少样本学习的方式,学习生成类似的推理链来解决推理问题。这种方法只使用了最少量的数据(即仅需要几个提示示例),无需任务特定的微调,并且显著提高了LLM在基于推理的基准测试中的性能,尤其是对于更大的模型。