“遇见CREATOR:一种新颖的AI框架,通过文档和代码实现,赋予LLMs创造自己的工具的能力”

CREATOR A novel AI framework that empowers LLMs to create their own tools through documents and code.

大型语言模型(LLMs)近年来取得了显著进展,如GPT-3、Codex、PaLM、LLaMA、ChatGPT以及更近期的GPT4。由于这些模型在上下文学习、代码生成和各种其他NLP任务中的出色表现,LLMs的潜力正逐渐接近人工通用智能。尽管取得了令人印象深刻的成就,但目前的LLMs存在一些缺点,例如无法识别或对当前信息做出反应、频繁无法提供精确和易理解的数学解决方案以及在长逻辑链上的推理不稳定。一系列研究致力于为LLMs提供外部工具,以减轻它们的记忆负担,并提高它们解决这些问题的能力。例如,包括网络搜索引擎或问答(QA)系统等工具使LLMs能够学习何时以及如何使用外部资源来解决问题。最近的研究中还使用了其他外部LLM工具,包括GitHub资源、神经网络模型(如Huggingface模块)和代码解释器(如Python解释器)。在使用这些技术解决复杂问题之前,LLMs必须提供详细的蓝图。

图1说明了CREATOR与一般工具使用框架的区别。

然而,工具增强型LLMs仍然面临一些困难,特别关注以下几个领域:
(1)虽然潜在的创新任务种类基本上是无限的,但当前的工作大多集中在少数几种工具上。因此,可能很难找到适合解决新问题的现有工具。
(2)语言模型当前推断如何更有效地使用工具的方法本质上是复杂的。整个任务处理过程涉及大量的规划,这给模型带来了沉重的认知负担,并需要高昂的学习成本。
(3)在接收到执行结果后,工具使用流水线缺乏明确定义和自动化的错误处理机制。该框架的准确性和鲁棒性仍需进一步发展。在这项工作中,清华大学和伊利诺伊大学(UC)的研究人员打算从一个新的角度解决这些障碍:他们使LLMs成为工具的开发者,并以更高的准确性和灵活性解决问题,而不是让LLMs成为工具的使用者。

因此,他们提出了CREATOR,他们的工具开发框架,利用LLMs的能力根据现有参数开发工具并进行纠正,然后解决特定的问题。他们在图1中展示了CREATOR和典型工具使用框架之间的流程变化。工具使用框架专注于如何使用推理来更有效地选择和计划使用API。相比之下,他们的重点是多样化工具集,解耦各个层次的推理,并提高框架的弹性和正确性。

CREATOR可以分为四个步骤:
• 创建:利用LLM基于问题的抽象推理能力,通过文档和代码实现创建广泛适用的工具。
• 决策:选择何时以及如何使用适当的工具来应用该工具。
• 实施:运行程序,LLM使用工具来解决问题。
• 纠正:基于执行结果的纠正工具和选择。

他们最初在CREATOR上进行了MATH和TabMWP的测试,这两个现有基准测试用于评估他们的设计的成功程度。TabMWP提供了各种表格设置以进行问题解决,而MATH数据集包含了困难且多样的数学竞赛挑战。值得注意的是,基于CREATOR构建的ChatGPT在MATH和TabMWP数据集上分别以59.7%和94.7%的平均准确率优于传统的思维链(CoT)、思维程序(PoT)和工具使用基线。

此外,他们提出了Creation Challenge数据集,该数据集包含需要使用现有工具或代码包进行回答的创新和困难的挑战,因为现有基准测试并不是专门设计用于评估工具创建。利用该数据集,他们展示了LLMs的工具构建能力的价值和用途。此外,他们提供实验结果和案例研究,展示了工具开发如何促进知识转移,并且LLMs具有不同程度的工具制作能力,使其能够更有效地适应各种问题环境。