模拟交互智能

Simulated Interactive Intelligence

在进行任何人工智能研究之初,必须回答两个问题。我们希望AI系统做什么?我们如何评估我们在朝着这个目标取得进展?艾伦·图灵在他描述图灵测试的开创性论文中,更加谦虚地将其命名为模仿游戏,并认为对于某种类型的AI来说,这些问题可能是一个问题。粗略地说,如果一个AI在人与其互动时表现出类似人类智能的行为,那么该AI就通过了测试,可以被称为智能。应该通过与人类互动来测试与人类互动的AI。

同时,互动不仅仅是智能的测试,也是目的。为了使AI代理能够普遍有用,它们应该能够在各种活动中协助我们,并与我们进行自然交流。在科幻小说中,我们能够与机器人交谈的设想是司空见惯的。而能够帮助完成大量任务的智能数字代理将非常有用。为了将这些设备变为现实,我们必须研究如何创建能够与人类进行有效互动并在复杂环境中产生行为的代理。

构建能够与人类和世界互动的代理面临着许多重要的挑战。我们如何提供适当的学习信号来教授人工代理这些能力?在语言本身就含糊不清和抽象的情况下,我们如何评估我们开发的代理的性能?正如风洞对于飞机设计的作用一样,我们创建了一个用于研究如何制造互动代理的虚拟环境。

我们首先创建了一个模拟环境,即游戏室,在其中虚拟机器人可以通过移动、操作物体和彼此交谈进行各种有趣的互动。游戏室的尺寸、货架、家具、窗户和门等标志以及各种儿童玩具和家庭用品的分配都可以随机化。环境的多样性使得可以进行涉及空间和物体关系推理、引用的模糊性、容纳、构建、支持、遮挡、部分可观测性等互动。我们在游戏室中嵌入了两个代理,以提供研究联合意图、合作、私人知识交流等社交维度。

代理在游戏室中互动。蓝色代理指示黄色代理“将直升机放入盒子中。”
游戏室的配置是随机的,以创建数据收集的多样性。

我们利用一系列学习范式来构建能够与人类互动的代理,包括模仿学习、强化学习、监督学习和无监督学习。正如图灵在命名“模仿游戏”时可能预见到的那样,创建能够与人类互动的代理的最直接途径可能是模仿人类行为。包括人类行为的大型数据集以及从这些数据中进行模仿学习的算法对于制造能够与文本语言互动或玩游戏的代理至关重要。对于基于语言的互动,我们没有现成的、预先存在的行为数据来源,因此我们创建了一个系统,从人类参与者彼此互动中引出互动。这些互动主要是通过提示其中一个玩家以关于“请求另一个玩家相对于其他东西定位某物”的提示来引出的。一些互动提示涉及问题和指示,例如“请求另一个玩家描述某物的位置。”总之,我们在这个设定中收集了一年多的实时人类互动。

我们的代理将图像和语言作为输入,并产生物理动作和语言动作作为输出。我们使用相同的输入规范构建了奖励模型。
左:在2分钟的互动过程中,两个玩家(设定者和求解者)四处移动、观察周围环境、抓取和放下物体,并进行交谈。右:设定者被提示“请求另一个玩家举起某物。”设定者指示求解者代理“举起摆在餐桌前面的飞机”。求解者代理找到了正确的物体并完成了任务。

模仿学习、强化学习和辅助学习(包括监督和无监督表示学习)被整合成一种互动自我对弈的形式,这对于创建我们最好的智能体至关重要。这样的智能体可以遵循命令并回答问题。我们称这些智能体为“求解器”。但是我们的智能体也可以提供命令和提问。我们称这些智能体为“设定者”。设定者与求解器互动,向求解器提出问题以产生更好的求解器。然而,一旦智能体训练完成,人类可以作为设定者参与并与求解器智能体互动。

从人类示范中,我们使用一种组合的监督学习(行为克隆)、逆强化学习来推断奖励模型,并使用推断的奖励模型优化策略的正向强化学习训练策略。我们使用半监督辅助任务来帮助塑造策略和奖励模型的表示。
设定者智能体要求求解器智能体“将白色机器人放在床上。”求解器智能体找到机器人并完成任务。从示范中学到的奖励函数捕捉了任务的关键方面(蓝色),并且在同样的观察条件下,与对照指令“将红色机器人放在床上。”相比,给予较少的奖励(灰色)。

我们的互动不能像大多数简单的强化学习问题那样进行评估。例如,没有胜利或失败的概念。事实上,在共享物理环境中使用语言进行交流引入了许多抽象和模糊的概念。例如,如果设定者要求求解器将某物放在附近,那么“附近”到底是指什么?但是,在标准化的环境中准确评估训练好的模型是现代机器学习和人工智能的关键。为了应对这种情况,我们开发了各种评估方法来帮助诊断问题并评分智能体,包括让人类与智能体进行大规模试验的方法。

<img alt="人类评估了在Playroom中完成指令和回答问题任务的智能体和其他人类的表现。随机初始化的智能体成功率约为0%。仅使用监督行为克隆训练的智能体(B)的表现稍好,成功率为约10-20%。同时使用半监督辅助任务训练的智能体(B·A)表现更好。那些通过监督、半监督和强化学习结合的互动自我对弈训练的智能体被认为表现最好(BG·A & BGR·A)。

我们的环境的一个明显优势是人类操作者可以通过语言设置无限多的新任务,并且能够快速了解我们的智能体的能力。虽然有许多任务他们无法处理,但我们构建人工智能的方法为在不断增加的能力集上改进提供了明确的路径。我们的方法是通用的,可以应用于需要与复杂环境和人类互动的智能体的任何领域。