发现系统中代理存在的时候

When proxies are found in the system.

新的、形式化的代理定义为AI代理和它们所面临的激励提供了清晰的因果建模原则

我们希望构建安全、对齐的人工通用智能(AGI)系统,使其追求设计者的预期目标。因果影响图(CIDs)是一种用于建模决策情境的方法,可以让我们推理代理的激励。例如,这是一个用于1步马尔可夫决策过程的CID——这是一个典型的决策问题框架。

S₁代表初始状态,A₁代表代理的决策(方块),S₂代表下一个状态。R₂是代理的奖励/效用(菱形)。实线链接指定因果影响。虚线边指定信息链接——代理在做出决策时知道的信息。

通过将训练设置与塑造代理行为的激励联系起来,CIDs可以在训练代理之前揭示潜在风险,并激发更好的代理设计。但是,我们如何知道CID是否是训练设置的准确模型?

我们的新论文《Discovering Agents》介绍了解决这些问题的新方法,包括:

  • 代理的首个形式化因果定义:如果代理的行为以不同的方式影响世界,它们将调整策略
  • 从经验数据中发现代理的算法
  • 因果模型和CIDs之间的转换
  • 纠正先前关于代理因果建模的混淆

综合起来,这些结果提供了额外的保证层次,以确保没有建模错误,这意味着CIDs可以更自信地用于分析代理的激励和安全属性。

示例:将老鼠建模为代理

为了帮助说明我们的方法,考虑以下示例,包含一个世界,其中有三个方块,老鼠从中间方块开始选择向左或向右,到达下一个位置,然后可能获得一些奶酪。地板很滑,所以老鼠有可能滑倒。有时奶酪在右边,有时在左边。

老鼠和奶酪环境。

这可以用以下CID表示:

老鼠的CID。D代表向左/向右的决策。X是老鼠采取左/右动作后的新位置(它可能会滑倒,意外地滑到另一边)。U表示老鼠是否获得奶酪。

可以通过机械化因果图捕捉到鼠标在不同环境设置(冰冷度、奶酪分布)下选择不同行为的直观感受,对于每个(对象级)变量,该图还包括一个控制变量的机制变量,该机制变量决定了变量如何依赖其父节点。关键是,我们允许机制变量之间存在链接。

该图中包含了额外的黑色机制节点,代表鼠标的策略以及冰冷度和奶酪分布。

鼠标和奶酪环境的机械化因果图。

机制之间的边表示直接因果影响。蓝色边是特殊的终端边,大致上,机制边A~ → B~仍然存在,即使对象级变量A被改变,使其没有出边。

在上面的例子中,由于U没有孩子,它的机制边必须是终端边。但是,机制边X~ → D~不是终端边,因为如果我们切断X与其子节点U的联系,则鼠标将不再适应其决策(因为其位置不会影响它是否得到奶酪)。

发现代理因果关系

通过对干预实验进行推理,可以从中发现因果图。特别地,可以通过实验对A进行干预,并检查B是否有响应,即使所有其他变量保持固定。

我们的第一个算法使用这种技术来发现机械化因果图:

算法1接受系统(鼠标和奶酪环境)的干预数据作为输入,并使用因果发现输出机械化因果图。详见论文。

我们的第二个算法将这个机械化因果图转换为一个博弈图:

算法2将机械化因果图作为输入,并将其映射到一个博弈图。一个传入的终端边表示一个决策,一个传出的终端边表示一个效用。

综上,通过算法1和算法2,我们可以从因果实验中发现代理,用CIDs表示它们。

我们的第三个算法将游戏图转换为机械化因果图,使我们能够在某些附加假设下在游戏和机械化因果图之间进行转换:

算法3将博弈图作为输入,并将其映射到机械化因果图。一个决策表示一个传入的终端边,一个效用表示一个传出的终端边。

更好的安全工具来建模AI代理

我们提出了代理人的第一个正式的因果定义。基于因果发现,我们的关键见解是,代理人是系统,它们根据其行为对世界产生影响的变化来适应自己的行为。事实上,我们的算法1和算法2描述了一个精确的实验过程,可以帮助评估一个系统是否包含代理人。

对AI系统的因果建模的兴趣正在迅速增长,我们的研究将这种建模基于因果发现实验。我们的论文通过改善几个示例AI系统的安全分析,展示了我们方法的潜力,并显示因果性是发现系统中是否存在代理人的有用框架 – 这是评估来自AGI的风险的一个关键问题。

想要了解更多吗?请查看我们的论文。欢迎提供反馈和评论。