清华大学和微软研究员推出ToRA:一种用于数学问题求解的集成人工智能工具的推理代理
清华大学与微软研究员联手打造ToRA:用于解决数学问题的智能推理代理工具
人工智能和数学问题解决取得了重大进展,尤其是大型语言模型的出现。然而,这些模型仍然面临复杂的数学挑战。微软和清华大学的研究人员引入了一种突破性的方法,称为Tool-integrated Reasoning Agents(TORA),它结合了自然语言推理和外部计算工具,旨在解决复杂的数学问题。
研究人员转而整合计算器、代码解释器和符号求解器等外部工具来应对这些挑战。虽然基于程序的方法已经将推理任务转化为程序综合任务,但它们仍然面临微妙的推理、规划和错误处理问题。利用这些工具增强大型语言模型(LLMs)极大地改进了推理和生成性能。知识蒸馏技术,如利用LLM生成的轨迹进行微调,也在将教师模型的知识转移给学生模型方面发挥了作用。
LLMs在语言任务中取得了显著进展,包括数学推理,但复杂的数学仍然具有挑战性。当前增强LLMs数学能力的策略包括逐步自然语言推理和程序综合。前者擅长语义和抽象推理,后者在严谨的操作中表现出色,并且可以利用像方程求解器这样的专门工具。他们的方法在数学推理数据集上的表现优于开源模型,特别是在竞赛级别的MATHS数据集上实现了高准确性。他们的方法还揭示了数学推理中工具交互的优势和未解决的挑战,并在未来的研究中指导了这个领域。
TORA模型使用数学数据集上的交互式工具使用轨迹进行训练,通过对注释进行模仿学习并利用输出空间塑形来改进推理行为。GPT-4在训练集上生成了多样化的推理模式。指令和少样例示例以交错格式进行组合,以进行提示筛选,并评估了TORA的有效性,该方法将推理与程序集成在一起。它取得了显著的推理性能改进。所发现的挑战包括更深入地理解几何空间以及解决中级代数和预微积分问题中的复杂符号推理问题。
TORA通过将自然语言推理与外部工具整合,增强了数学推理能力。TORA模型在十个数学推理数据集上表现出色,在平均13%-19%的绝对改进率和基于程序的问题解决中胜过了开源模型。他们的方法分析了工具交互的优势和挑战,并突出了TORA整合推理和程序执行的有效性。
TORA通过无缝地将自然语言推理与基于程序的工具使用集成在一起,实现了在各种数学推理任务上的最新性能,超越了现有的推理和基于程序的方法。对工具交互的优势和挑战的全面分析为未来的研究提供了关键的见解,有望开发出更先进和适应性更强的推理代理。