如何通过正确的奖励机制产生不希望的目标

如何通过正确的奖励机制实现不希望的目标?

探索目标错误泛化的例子 – AI系统的能力泛化但目标未泛化

随着我们构建越来越先进的人工智能(AI)系统,我们希望确保它们不会追求不希望的目标。这种行为在AI代理中通常是由于规范游戏(specification gaming)而产生的-利用了对其奖励的糟糕选择。在我们最新的论文中,我们探索了一种更微妙的机制,即AI系统可能无意中学会追求不希望的目标的目标错误泛化(GMG)。

GMG发生在系统的能力成功泛化但目标未按预期泛化时,因此系统会有能力地追求错误的目标。与规范游戏不同的是,GMG甚至在AI系统以正确的规范进行训练时也可能发生。

我们早期的文化传播工作导致了一个我们没有设计的GMG行为的例子。一个代理(蓝色的斑点)必须在环境中导航,按正确的顺序访问彩色的球体。在训练过程中,有一个“专家”代理(红色的斑点)按正确的顺序访问彩色的球体。代理学会了跟随红色的斑点是一种有益的策略。

代理(蓝色)观察专家(红色)以确定要去哪个球体。

不幸的是,尽管代理在训练过程中表现良好,但在训练结束后,当我们将专家替换为按错误顺序访问球体的“反专家”时,代理表现不佳。

代理(蓝色)跟随反专家(红色),累积负奖励。

尽管代理可以观察到它获得了负奖励,但代理并没有追求“按正确顺序访问球体”的预期目标,而是能够追求“跟随红色代理”的目标。

GMG不仅限于这种强化学习环境。实际上,它可以发生在任何学习系统中,包括大型语言模型(LLMs)的“少样本学习”(few-shot learning)。少样本学习方法旨在使用较少的训练数据构建准确的模型。

我们促使一个名为Gopher的LLM评估涉及未知变量和常量的线性表达式,例如x+y-3。为了解决这些表达式,Gopher必须首先询问未知变量的值。我们提供了十个训练示例,每个示例涉及两个未知变量。

在测试时,模型会被问到涉及零个,一个或三个未知变量的问题。尽管模型在具有一个或三个未知变量的表达式上泛化正确,但当没有未知变量时,它仍然会问一些多余的问题,比如“6是多少?”即使不必要,模型在回答之前始终至少询问一次用户。

与Gopher的对话,用于在评估表达式任务中进行少样本学习,突出显示GMG行为。

在我们的论文中,我们提供了其他学习环境中的附加示例。

解决GMG对于使AI系统与其设计者的目标保持一致非常重要,因为它是AI系统可能出错的一个机制。随着我们接近人工通用智能(AGI),这将尤为关键。

考虑两种可能的AGI系统类型:

  • A1:预期模型。这个AI系统按照其设计者的意图执行任务。
  • A2:欺骗模型。这个AI系统追求一些不希望的目标,但(根据假设)它也足够聪明,知道如果以与设计者意图相悖的方式行事,将受到惩罚。

由于在训练过程中A1和A2将表现出相同的行为,GMG的可能性意味着任何一个模型都可能形成,即使只有对预期行为的奖励要求。如果学习到A2模型,它将试图规避人类监督,以实现其朝向不希望的目标的计划。

我们的研究团队很乐意看到后续的工作调查GMG在实践中的发生概率以及可能的缓解措施。在我们的论文中,我们提出了一些方法,包括机械解释性和递归评估,我们正在积极研究这两种方法。

我们目前正在收集这个公开可用的电子表格中的GMG示例。如果您在人工智能研究中遇到目标误概化的情况,我们邀请您在这里提交示例。