大型语言模型真的能做数学吗?这篇人工智能研究介绍了MathGLM:一个强大的模型,可以在没有计算器的情况下解决数学问题
大型语言模型MathGLM能解决数学问题
谈到下游自然语言处理(NLP)任务时,大型语言模型(LLMs)已被证明非常有效。为了生成连贯和相关上下文的回复,像GPT4和ChatGPT这样的先驱模型已经在大量的文本数据上进行了训练。它们的文本理解和生成能力使它们在各种NLP应用中非常灵活。人们普遍认为LLMs在准确执行复杂的算术运算(如乘法运算涉及超过八位数的数字或涉及小数或分数的运算)方面存在困难。尽管GPT-4在各种NLP任务中显示出了出色的能力,但在数学思维方面可能不会展示相同程度的熟练度。
清华大学、TAL AI实验室和智浦人工智能研究了LLMs的数学技能,以打消这些错误观念。他们最近的工作表明,MathGLM是一个精心构建的强大模型,可以执行各种困难的算术运算。它的性能与行业领先的LLMs(如GPT-4)相当。加法、减法、乘法、除法和指数运算都是算术运算的例子,使用括号结合几种类型的算术也是。他们进行“1-原子操作”过程,这些过程是单独进行的,不与其他过程整合在一起。值得注意的是,MathGLM可以轻松地执行任何类型的数学运算,包括整数、小数、分数、百分数甚至负数。
Ape210K数据集收集了来自互联网各地的数学问题,并提供了全面的数学困难来源。该数据集有助于训练MathGLM,因为它包含各种问题类型。原始数据集的独特之处在于它包含了明确计算的答案。然而,团队强调,MathGLM在呈现答案方面的简单方法可能导致它无法识别重要的底层计算原则和模式。
研究人员使用逐步方法重构Ape210K数据集,以克服这种可能的缺点,并提高MathGLM解决数学问题的能力。通过将复杂的算术计算过程分解为一系列顺序阶段,MathGLM可以以高准确度回答数学问题。它的广泛试验和深入分析证明了MathGLM在数学推理方面优于GPT-4。与在原始数据集上进行微调相比,MathGLM在答案准确性方面取得了令人印象深刻的绝对增益42.29%。在一个包含5,000个数学问题案例的数据集上,MathGLM在从GLM-10B进行微调后与GPT-4非常接近。通过将算术问题分解为各个步骤,MathGLM可以完全理解复杂的计算过程,学习底层的计算规则,并产生更可靠的结果。
这些发现极大地挑战了LLMs无法处理困难算术任务的传统智慧,从而揭示了它们在数学思维方面的异常能力。