斯坦福大学和微软的研究人员引入了自我改进的人工智能:利用GPT-4提升脚手架程序性能

斯坦福大学与微软研究人员引入自我学习的人工智能:GPT-4提升脚手架程序性能

几乎每个以自然语言描述的目标都可以通过查询语言模型来进行优化。然而,通过对语言模型进行多次有组织的调用,程序可能会提供具有更高目标值的输出。他们将这些称为“脚手架”程序,通常使用像Python这样的计算机语言由人类创建。他们的主要发现是,脚手架程序的设计是与任何优化问题分布和任何给定的语言模型相关的优化问题。来自微软研究和斯坦福大学的研究人员在这篇论文中描述了自学优化器(STOP)的技术,其中代码的递归应用使用语言模型来改善任何给定解决方案,从而实现自我改进。

他们的方法始于一个初始种子“改进者”脚手架程序,该程序使用语言模型来改进对后续挑战的回应。随着系统的迭代,模型将改进此改进者程序。为了衡量他们自我优化架构的有效性,他们应用了一系列有限的下游算法任务。他们的研究结果显示,使用其自我改进技术进行更多迭代后,模型会不断改进。STOP展示了语言模型如何以这种方式充当其元优化器的能力。此外,他们分析了模型建议的自我改进策略的类型,建议策略在下游任务中的转化效果以及模型是否容易受到风险自我改进技术的影响。

图1:展示了GPT-4提出和使用的自我改进技术示例。这包括脚手架代码本身在内的任意代码会根据每种技术进行修订。

由于底层语言模型未经修改,这个问题被称为递归自我改进代码生成,受启发于但并非完全是递归自我改进(RSI)系统。至少在过去50年里,研究人员形式化了RSI的概念。然而,这项工作的重点是创建更有能力的系统,并假设模型可以改进代码的每个部分。他们的研究是朝着这个方向迈出的一小步,因为它只考虑了模型在迭代中改进调用它的脚手架的能力。这项研究首次在数学上明确定义了RSI代码生成问题。

然后,他们创建和评估STOP来说明RSI代码生成的可能应用。不同的下游任务展示了改进。当使用一个在2021年之前使用的GPT-4语言模型的版本时,远超多数脚手架系统的问世,图1展示了STOP提供的一些有趣和有用的脚手架。额外的测试跟踪模型尝试关闭沙箱标志的频率。最后,他们解决了这种技术的道德发展问题。

这项工作的主要贡献包括:

  1. 制定了一种元优化策略,其中脚手架系统递归地改进自身。
  2. 证明了该系统可以成功地使用现代语言模型(特别是GPT-4)递归地改进自身。
  3. 研究了模型提出和实施的自我改进技术,包括模型如何避免类似沙箱的安全预防措施。