关于马尔可夫回报的表达能力

马尔可夫回报表达能力

奖励是强化学习(RL)代理的驱动力。由于在RL中的核心作用,奖励通常被认为是在表达上足够通用,正如Sutton和Littman的奖励假设所总结的那样:

“……我们所指的目标和目的的全部可以被视为最大化收到的标量信号(奖励)的累积和的期望值。” – SUTTON(2004),LITTMAN(2017)

在我们的工作中,我们迈出了系统研究这一假设的第一步。为此,我们考虑了涉及设计师Alice和学习代理Bob的以下思想实验:

我们假设Alice考虑了一个她希望Bob学会解决的任务 – 这个任务可以是自然语言描述(“平衡这根杆子”),想象中的状态(“到达象棋棋盘的任何获胜配置”),或者更传统的奖励或值函数。然后,我们想象Alice将她选择的任务转化为某个生成器,该生成器将向Bob(一个学习代理)提供学习信号(如奖励),Bob将在其一生中从该信号中学习。然后,我们通过回答以下问题来对奖励假设进行研究:在Alice选择的任务下,是否总能找到一个奖励函数能够将该任务传达给Bob?

什么是任务?

为了使我们对这个问题的研究具体化,我们首先将重点限制在三种任务类型上。具体而言,我们引入了三种任务类型,我们认为它们捕捉了合理的任务类型:1)一组可接受的策略(SOAP),2)策略顺序(PO)和3)轨迹顺序(TO)。这三种任务形式代表了我们可能希望代理学习解决的任务类型的具体实例。

然后,我们研究奖励是否能够在有限环境中捕捉到这些任务类型。关键是,我们只关注马尔可夫奖励函数;例如,对于足够形成任务的状态空间,例如网格世界中的(x,y)对,是否存在仅依赖于这个相同状态空间的奖励函数能够捕捉到该任务?

第一个主要结果

我们的第一个主要结果显示,对于这三种任务类型中的每一种,存在环境-任务对,没有马尔可夫奖励函数能够捕捉到该任务。其中一个例子是在典型的网格世界中“顺时针或逆时针绕整个网格走一圈”的任务:

这个任务可以自然地由包含两个可接受策略的SOAP捕捉:顺时针策略(蓝色)和逆时针策略(紫色)。要使马尔可夫奖励函数表达这个任务,它需要使这两个策略的值严格高于所有其他确定性策略。然而,没有这样的马尔可夫奖励函数:单个“顺时针移动”操作的最优性将取决于代理过去是否已经朝这个方向移动。由于奖励函数必须是马尔可夫的,它无法传达这种信息。类似的例子还说明了马尔可夫奖励不能捕捉每个策略顺序和轨迹顺序。

第二个主要结果

鉴于一些任务可以捕捉,一些任务不能捕捉,我们接下来探讨是否存在一种有效的过程来确定给定环境中的给定任务是否可以被奖励捕捉。此外,如果存在一个能够捕捉给定任务的奖励函数,我们理想地希望能够输出这样一个奖励函数。我们的第二个结果是一个积极的结果,它说对于任何有限环境-任务对,存在一种过程可以:1)决定给定环境中是否可以通过马尔可夫奖励捕捉到该任务,以及2)在存在这样一个函数时输出确切传达该任务的所需奖励函数。

这项工作为了解奖励假设的范围奠定了初步的路径,但是还有很多工作要做,以将这些结果推广到有限环境、马尔可夫奖励和“任务”和“表达能力”的简单概念之外。我们希望这项工作能够为奖励及其在强化学习中的地位提供新的概念视角。