新兴能力揭示:只有成熟的AI像GPT-4才能自我改进吗?探索语言模型自主增长的影响
研究人员正在调查,类似于AlphaGo Zero,其中AI代理通过反复参与具有明确规则的竞争游戏来发展自己,许多大型语言模型(LLM)是否可以在几乎没有人类交互的协商游戏中相互增强。 这项研究的结果将产生深远的影响。与今天的数据饥饿的LLM培训相比,如果代理能够独立进展,就可以构建强大的代理,而无需太多人类注释。 它还表明,具有很少人类监督的强大代理是有问题的。 在这项研究中,来自爱丁堡大学和AI Allen研究所的研究人员邀请两个语言模型:客户和卖家,在购买中讨价还价。
客户希望以较低的价格购买产品,但卖家要求以更高的价格出售(图1)。他们要求第三个语言模型扮演批评家的角色,并在达成交易后向玩家提供意见。然后,利用来自批评LLM的AI输入,他们再次玩游戏并鼓励玩家改进他们的方法。他们选择了协商游戏,因为它具有明确的印刷规则和特定的可量化目标(更低/更高的合同价格),用于战术协商。尽管游戏最初看起来很简单,但它需要非微不足道的语言模型能力,因为模型必须能够:
- 明确理解并严格遵守协商游戏的文本规则。
- 根据批评LM提供的文本反馈进行对应并进行迭代改进。
- 在长期内反思策略和反馈,并在多个回合中进行改进。
在他们的实验中,只有模型get-3.5-turbo,get-4和Claude-v1.3符合能够理解协商规则和策略以及与AI指令良好对齐的要求。 因此,并非他们考虑的所有模型都表现出所有这些能力(图2)。 在最初的研究中,他们还测试了更复杂的文本游戏,例如棋盘游戏和基于文本的角色扮演游戏,但是对于代理人来说理解和遵守规则更加困难。他们的方法被称为ICL-AIF(从AI反馈中学习上下文)。
他们利用人工智能评论者的评论以及之前的对话历史轮次作为上下文演示。这将玩家在前几轮的真实发展和评论者对变化的想法转化为后续讨价还价的少量提示。由于两个原因,他们使用上下文学习:(1)使用强化学习对大型语言模型进行微调成本过高,(2)最近表明上下文学习与梯度下降密切相关,使得他们得出的结论在调整模型时很可能会推广(如果资源允许)。
在人类反馈强化学习(RLHF)中,奖励通常是一个标量,但在他们的ICL-AIF中,反馈以自然语言的形式提供。这是两种方法之间的一个值得注意的区别。他们不依赖于每轮后的人类互动,而是依赖于人工智能反馈,因为它更具可扩展性,可以帮助模型独立进展。
当在承担不同责任时接受反馈时,模型的反应也不同。改进买方角色模型可能比卖方角色模型更困难。尽管像get-4这样的强大代理可以利用过去的知识和在线迭代人工智能反馈不断发展,但试图以更高的价格出售某物(或以更少的价格购买某物)可能会冒不进行交易的风险。他们还证明了该模型可以进行不那么冗长但更深思熟虑(最终更成功)的讨价还价。总体而言,他们预计他们的工作将是增强具有人工智能反馈的游戏环境中语言模型讨价还价的重要一步。该代码可在GitHub上获得。