据耶鲁大学和Google DeepMind的研究人员使用先进的微调技术在大型语言模型上取得了数学问题解决的成功
耶鲁大学与Google DeepMind研究人员采用先进的微调技术成功解决大型语言模型中的数学问题
即使是最先进的大型语言模型(LLMs),如GPT-4和PaLM 2,也很难解决数学问题,因为这需要想象力、数学推理和计算。当LLMs被允许多次解决问题时,它们发现正确答案的可能性要大得多。因此,LLMs已经展示了提高解决算术问题的潜力。例如,经过预训练的PaLM 2-L在贪婪解码时可以达到约33.4%的准确性。然而,在使用温度采样(Table 1)采样64个解决方案时,至少有一个准确答案(pass@64)的概率为79.4%。
表1:基于有监督解决方案的微调结果。对比了两个不同的训练数据来源,即MATH数据集和PRM800K数据集。
这种显著的性能差异表明,LLMs可能能够生成准确的答案,但在区分正确和错误解决方案方面存在困难。因此,为了缩小上述性能差异,他们研究了可增强LLM的解决方案开发和评估能力的任务特定微调技术。
- 《来自华盛顿大学和NVIDIA的研究人员提出的人形智能代理:一种用于生成型代理的人类模拟的人工智能平台》
- 见识LAMP:一种利用文本到图像扩散模型学习运动模式的几次训练AI框架
- 如何使用ChatGPT进行编码?
他们研究了三种微调技术:
(1)SSFT(有监督逐步解决方案微调)。他们研究了预训练的LLMs是否可以从有监督微调步骤中受益作为起点技术。
他们调整LLMs以提供完整的解决方案和答案。
(2)解决方案聚类重排序(SCR)。他们将生成器作为解决方案评估器,用于候选解决方案重排序,以提高LLM评估解决方案的能力。在此之前的研究已经研究了类似的解决方案样本排序或重排序,他们提供了一种将多数投票的优点与重排序相结合并降低排序成本的新方法。更具体地说,作为多数投票的初步阶段,他们首先根据数学等价性将候选回答分为几个组。然后,为了进一步提高多数投票的结果,他们将解决方案评估器应用于最常见簇中的解决方案。
(3)顺序多任务微调。除了解决方案评估任务之外,他们还对提高LLM在生成解决方案任务上的性能以及确定解决方案评估任务的训练目标是否能够帮助模型生成解决方案感兴趣。
为了实现这一目标,他们提供了一个顺序多任务学习环境,其中将解决方案评估任务构建为自然语言生成问题,使其训练目标可以为解决方案生成模型提供有价值的监督信号。更详细地说,他们在三个阶段调整模型:(1)作为生成器(SSFT),(2)作为解决方案评估器(SCR),以及(3)再次作为生成器(SSFT)。
他们在困难的MATH数据集上使用了PaLM 2-S*和PaLM 2-L(PaLM 2的小型和大型形式)进行广泛的研究,得出以下结论:
• 由于SSFT更多受益于细粒度、格式良好的答案,逐步解决方案的质量和样式可以显著影响精细调整模型的性能。
• 仅对最常见的解决方案簇进行重排序可以获得比对所有解决方案进行重排序更好的性能,并且还可以提高计算效率,这就是为什么他们认为这将是未来工作的更好的标准做法。
• 他们证明了为解决方案生成和评估任务训练模型的好处,并提出了一种成功的利用二元评估任务的学习信号来生成模型的尝试。与仅进行有监督解决方案微调相比,他们提出的多任务顺序微调可以更有效地提高解决方案生成模型的性能。