“先有梦想,后学习:DECKARD是一种利用LLMs训练强化学习(RL)智能体的AI方法”

DECKARD是一种利用LLMs训练RL智能体的AI方法

强化学习(RL)是训练可以通过与环境交互学习完成复杂任务的自主代理的流行方法。RL使它们能够在不同条件下学习最佳动作,并通过奖励系统适应其环境。

RL面临的主要挑战是如何高效地探索许多现实世界问题的广阔状态空间。这个挑战是由于在RL中,代理通过探索与环境的交互来学习。想象一个试图玩Minecraft的代理。如果你之前听说过它,你就知道Minecraft的合成树有多么复杂。你有数百种可制作的物品,而你可能需要制作一个物品来制作另一个物品,等等。所以,这是一个非常复杂的环境。

由于环境可能具有大量可能的状态和动作,仅通过随机探索就很难为代理找到最优策略。代理必须在利用当前最佳策略和探索状态空间的新部分之间取得平衡,以找到更好的策略。找到可以平衡探索和利用的高效探索方法是强化学习中的一个活跃研究领域。

众所周知,实际的决策系统需要有效地使用关于任务的先前知识。通过拥有关于任务本身的先前信息,代理可以更好地调整其策略,并避免陷入次优策略。然而,目前大多数强化学习方法在没有任何先前训练或外部知识的情况下进行训练。

但为什么会这样呢?近年来,人们越来越关注使用大型语言模型(LLM)来辅助RL代理进行探索,提供外部知识。这种方法显示出了潜力,但仍然存在许多待解决的问题,比如将LLM知识与环境联系起来以及处理LLM输出的准确性。

那么,我们应该放弃使用LLM来辅助RL代理吗?如果不是,我们如何解决这些问题,然后再次使用它们来指导RL代理?答案有一个名字,那就是DECKARD

DECKARD概述。来源:https://arxiv.org/abs/2301.12050

DECKARD是为Minecraft训练的,因为如果缺乏对游戏的专业知识,制作Minecraft中的特定物品可能是一项具有挑战性的任务。研究表明,在Minecraft中实现目标可以通过使用密集奖励或专家演示来简化。因此,Minecraft中的物品制作已成为人工智能领域中持久的挑战。

DECKARD利用大型语言模型(LLM)上的少样本提示技术生成一个抽象的世界模型(AWM)用于子目标。它使用LLM来假设AWM,也就是说它梦想着任务和解决任务的步骤。然后,它醒来并学习在梦中生成的子目标的模块化策略。由于这是在真实环境中完成的,DECKARD可以验证假设的AWM。在唤醒阶段对AWM进行修正,并将发现的节点标记为已验证,以便将来再次使用。

实验证明,在DECKARD中,LLM的引导对于探索至关重要,没有LLM引导的代理版本在开放式探索中制作大多数物品所需的时间是有两倍长的。在探索特定任务时,与可比较的代理相比,DECKARD提高了几个数量级的样本效率,展示了将LLMs稳健应用于RL的潜力。