斯坦福大学和DeepMind的研究人员提出了使用大型语言模型(LLMs)作为代理奖励函数的想法
Stanford University and DeepMind propose using large language models (LLMs) as proxy reward functions.
随着计算和数据的发展,自主代理获得了更多的力量。在这种情况下,人们有必要对代理学习的策略进行一定程度的干预,并检查它们是否与自己的目标一致。
目前,用户要么1)为所需的行为创建奖励函数,要么2)提供大量标记数据。这两种策略都存在困难,并且不太可能在实践中实施。代理容易受到奖励攻击,因此很难设计奖励函数以在竞争目标之间取得平衡。然而,奖励函数可以从注释示例中学习。然而,为了捕捉个体用户的口味和目标的微妙差别,需要大量的标记数据,这是一项昂贵的任务。此外,奖励函数必须重新设计,或者必须为具有不同目标的新用户群体重新收集数据集。
斯坦福大学和DeepMind的最新研究旨在设计一个系统,使用户更简单地分享他们的偏好,使用比编写奖励函数更自然的界面,并使用仅几个实例来定义这些偏好的成本效益方法。他们的研究使用了在互联网上的大量文本数据上进行训练的大型语言模型(LLMs),并且在没有或非常少的训练样本的情况下,在上下文中学习的能力已得到证明。根据研究人员的说法,LLMs是出色的上下文学习者,因为它们在足够大的数据集上进行了训练,以包含有关人类行为的重要常识先验知识。
- 一项新的研究提出了基于软自供电摩擦电纳米发电机和深度学习辅助数据分析的水下三维触觉张力结构(U3DTT)技术
- 开发者如何安全地使用生成式人工智能
- 斯坦福研究院推出FlashAttention-2:为长上下文语言模型带来速度和效率的飞跃
研究人员研究了如何使用提示的LLM作为训练RL代理的替代奖励函数,使用最终用户提供的数据。使用对话界面,所提出的方法要求用户定义一个目标。在定义目标时,可以使用几个实例,如“多功能性”,或者如果主题是常识,可以使用一句话。他们使用提示和LLM定义了一个奖励函数,用于训练RL代理。将RL episode的轨迹和用户的提示输入到LLM中,得到是否满足用户目标的得分(例如“是”或“0”),作为RL代理的整数奖励输出。使用LLMs作为代理奖励函数的一个好处是,用户可以通过语言直观地指定他们的偏好,而无需提供许多理想行为的示例。
用户报告称,所提出的代理与其目标更加一致,而与不同目标训练的代理不同。通过利用其对常见目标的先验知识,LLM在对零-shot提示生成的目标对齐奖励信号的比例上增加了平均48%,对于常规排序的矩阵游戏结果增加了36%。在最终协议游戏、Deal or No Deal协商任务和矩阵游戏中,团队仅使用几个提示来引导玩家完成过程。在试验中使用了十名真实用户。
LLM可以识别常见目标并发送与这些目标相一致的强化信号,即使在一次性情况下也是如此。因此,可以使用仅检测两种正确结果之一的LLMs训练与其目标一致的RL代理。由此产生的RL代理比使用标签训练的代理更容易准确,因为它们只需要学习一个正确结果。