这篇人工智能论文介绍了复杂性影响推理分数(CIRS):评估代码复杂性在增强大型语言模型推理能力中的作用
This paper introduces CIRS, which evaluates the impact of code complexity on the inference capability of large language models.
大型语言模型(LLMs)已经成为解决具体问题的通用方法。当代理需要有效控制环境的语义细微差别时,LLMs的推理能力在具体人工智能中至关重要。最近的方法将其称为“思维程序”,使用编程语言作为改进的提示系统来解决具有挑战性的推理任务。思维程序提示将问题分解为可执行的代码段,并逐个处理,而不是像思维链那样一次性处理。然而,编程语言的使用与LLMs思维能力的发展之间的关系尚未得到足够的研究。什么时候使用思维程序提示对于推理仍然是一个关键问题?
本文提出了复杂性影响推理分数(CIRS),这是评估代码推理阶段与LLMs推理能力之间关系的一种全面指标。他们认为,编程语言在建模复杂结构方面天生优于序列化自然语言,因为(1)它们改进了复杂结构的建模。(2)它们固有的过程导向逻辑有助于解决涉及多个步骤的困难。因此,他们提出的度量从结构和逻辑两个角度评估代码的复杂性。特别地,他们使用抽象语法树(AST)计算代码推理阶段(理由)的结构复杂性。他们的方法使用三个AST指标(节点计数,节点类型和深度)将AST中的所有结构信息表示为树,从而全面理解代码结构。
浙江大学、东海实验室和新加坡国立大学的研究人员开发了一种通过将编码困难与圈复杂度结合起来确定逻辑复杂性的方法,这受到了Halsted和McCabe的启发。因此,可以考虑到代码的操作符、操作数和控制流程。他们可以明确地计算代码中逻辑的复杂性。通过使用他们提出的CIRS进行实证调查,他们发现现有的LLMs对于代码等象征性信息的理解能力有限,并且并非所有复杂的代码数据都可以通过LLMs来教授和理解。低复杂度的代码块缺乏必要的信息,而高复杂度的代码块对于LLMs来说可能过于困难。为了有效提高LLMs的推理能力,只需要具有适当复杂性(结构和逻辑)的代码数据,既基本又详细。
- 横滨大学的研究人员提出VirSen1.0:一个用于简化基于传感器的人体手势识别系统开发的虚拟环境
- “一种受脑启发的学习算法实现了人工和脉冲神经网络的元可塑性”
- 遇见AnomalyGPT:一种基于大型视觉-语言模型(LVLM)的新型IAD方法,用于检测工业异常
他们提供了一种自动合成和分层数据的方法,可以产生和排除具有推理能力的最强数据。他们在两种不同的情况下使用他们的方法:(1)为需要数学思维的活动创建指令。(2)为涉及代码创建的活动过滤代码数据。他们提出的策略在数学推理方面优于基准模型,并在代码创建挑战中取得了成功。
他们在本文中的贡献有:
• 他们提出了CIRS,一种衡量代码数据推理困难度的独特方法。他们的方法从逻辑和结构的角度分析代码数据,可以准确地衡量代码复杂性与推理能力之间的关系。
• 他们进行了不同复杂程度的影响实证分析,确定了LLMs可以学习的代码语言的理想程度,这是思维程序提示推理能力的关键决定因素。
• 他们创建了一种自动合成和分层算法,并使用他们的方法对需要数学推理的工作进行代码数据过滤和指令创建。大量的研究结果支持他们提出的观点的可行性。