RT-2 新模型将视觉和语言转化为行动

RT-2新模型转化视觉和语言为行动

机器人变形器2(RT-2)是一种新颖的视觉-语言-动作(VLA)模型,它从互联网和机器人数据中学习,并将这些知识转化为用于机器人控制的通用指令。

高容量的视觉-语言模型(VLM)在网络规模的数据集上进行训练,使得这些系统在识别视觉或语言模式以及跨不同语言进行操作方面表现出色。但是,为了使机器人达到类似的能力水平,它们需要首先收集机器人数据,涵盖每个物体、环境、任务和情境。

在我们的论文中,我们介绍了机器人变形器2(RT-2),这是一种新颖的视觉-语言-动作(VLA)模型,它从互联网和机器人数据中学习,并将这些知识转化为用于机器人控制的通用指令,同时保留了网络规模的能力。

一个在网络规模数据上进行预训练的视觉-语言模型(VLM)正在从RT-1机器人数据中学习,成为一种可以控制机器人的视觉-语言-动作(VLA)模型RT-2。

这项工作建立在机器人变形器1(RT-1)的基础上,它是一个在多任务演示中进行训练的模型,可以学习到机器人数据中看到的任务和物体的组合。具体而言,我们的工作使用了在办公室厨房环境中由13台机器人在17个月内收集的RT-1机器人演示数据。

RT-2展示了超越其接触到的机器人数据的改进的泛化能力以及语义和视觉理解能力。这包括解释新的指令,并通过进行基本推理来响应用户指令,例如推理物体类别或高级描述。

我们还展示了将思维链推理纳入RT-2可以执行多阶段语义推理,例如决定哪个物体可以用作临时锤子(一块石头),或者哪种类型的饮料对于疲劳的人最好(一种能量饮料)。

为机器人控制调整VLMs

RT-2基于将一个或多个图像作为输入并产生一系列标记的VLMs进行了扩展,这些标记通常表示自然语言文本。这样的VLM已经成功地在网络规模的数据上进行训练,以执行视觉问答、图像描述或物体识别等任务。在我们的工作中,我们将Pathways语言和图像模型(PaLI-X)和Pathways语言模型体现(PaLM-E)调整为RT-2的骨干。

为了控制机器人,必须对其进行动作输出的训练。我们通过将动作表示为模型输出中的标记(类似于语言标记)并将动作描述为可以由标准自然语言分词器处理的字符串来解决这个挑战,如下所示:

RT-2训练中使用的动作字符串表示。这样一个字符串的示例可以是一系列机器人动作标记号,例如“1 128 91 241 5 101 127 217”.

该字符串以指示是否继续或终止当前情节而不执行后续命令的标志开始,然后是改变末端执行器的位置和旋转以及机器人夹爪的期望伸展的命令。

我们使用与RT-1中相同的离散化版本的机器人动作,并且表明将其转换为字符串表示使得可以在机器人数据上训练VLM模型-因为这样的模型的输入和输出空间不需要更改。

RT-2的架构和训练:我们在机器人和网络数据上共同微调预训练的VLM模型。得到的模型接受机器人摄像头图像并直接预测机器人执行的动作。

泛化和新兴技能

我们对我们的RT-2模型进行了一系列定性和定量实验,涉及超过6,000次机器人试验。探索RT-2的新兴能力,我们首先寻找需要结合网络规模数据和机器人经验的任务,然后定义了三个技能类别:符号理解、推理和人类识别。

每个任务都需要理解视觉-语义概念,并具备执行机器人控制以对这些概念进行操作的能力。诸如“捡起即将从桌子上掉下来的袋子”或“将香蕉移动到两加一的总和处”之类的命令——在这些命令中,机器人被要求对机器人数据中从未见过的对象或场景进行操作——需要将从基于网络的数据中翻译过来的知识进行操作。

新兴机器人技能的示例,这些技能在机器人数据中不存在,需要从网络预训练中进行知识转移。

在所有类别中,我们观察到与之前的基准线(如之前的RT-1模型和像Visual Cortex(VC-1)这样的在大型视觉数据集上进行预训练的模型)相比,泛化性能有了显著提升(超过3倍)。

新兴技能评估的成功率:我们的RT-2模型优于之前的机器人变换器(RT-1)和视觉预训练(VC-1)基准线。

我们还进行了一系列定量评估,从最初的RT-1任务开始,这些任务在机器人数据中有示例,然后通过机器人以前未见过的对象、背景和环境的不同程度的变化继续进行评估,这需要机器人从VLM预训练中学习泛化能力。

机器人以前未见过的环境示例,RT-2能够泛化到这些新情境中。

RT-2在机器人数据中对原始任务的性能保持不变,并在机器人以前未见过的情境中的表现得到改善,从RT-1的32%提高到62%,显示出大规模预训练的巨大好处。

此外,我们观察到与仅在视觉任务上进行预训练的基线(如VC-1和可重复使用的机器人操纵表示(R3M))以及使用VLM进行对象识别的算法(如对开放世界对象的操纵(MOO))相比,有显著改进。

RT-2在已见分布任务上具有高性能,并在未见分布任务上优于多个基准线。

我们在开源的Language Table机器人任务套件上评估了我们的模型,在模拟环境中实现了90%的成功率,相比之前的基准线(包括BC-Z(72%)、RT-1(74%)和LAVA(77%))有了显著提升。

然后,我们在真实世界中评估了相同的模型(因为它是在模拟和真实数据上进行训练的),并展示了其对新对象的泛化能力,如下图所示,除了蓝色立方体以外,训练数据集中没有其他对象。

RT-2在真实机器人语言表任务上表现良好。训练数据中除了蓝色立方体外,没有其他物体。

受LLM中使用的思维链提示方法的启发,我们对我们的模型进行了探测,将机器人控制与思维链推理相结合,以实现在单一模型中学习长期规划和低级技能。

具体来说,我们对RT-2的一个变种进行了微调,只进行了几百个梯度步骤,以增强其同时使用语言和动作的能力。然后,我们增加了数据,包括额外的“计划”步骤,首先用自然语言描述机器人即将采取的动作的目的,然后是“动作”和动作标记。以下是这种推理和机器人行为的一个例子:

思维链推理使学习一个自包含模型成为可能,该模型既能规划长期技能序列,又能预测机器人动作。

通过这个过程,RT-2可以执行更复杂的命令,需要推理出完成用户指令所需的中间步骤。由于它的VLM骨干,RT-2还可以从图像和文本指令进行规划,实现视觉上扎根的规划,而当前的计划和行动方法(如SayCan)无法看到真实世界,完全依赖于语言。

推进机器人控制

RT-2表明,视觉语言模型(VLM)可以转化为强大的视觉语言动作(VLA)模型,通过将VLM预训练与机器人数据相结合,可以直接控制机器人。

基于PaLM-E和PaLI-X的两个VLA实例,RT-2产生了极大改进的机器人策略,并且更重要的是,具有继承自大规模视觉语言预训练的显著更好的泛化性能和新出现的能力。

RT-2不仅是对现有VLM模型的简单有效修改,还展示了构建一个通用的物理机器人的承诺,该机器人可以进行推理、问题解决和解释信息,执行各种真实世界的任务。

阅读论文:https://robotics-transformer2.github.io/assets/rt2.pdf

了解更多关键词:https://blog.google/technology/ai/google-deepmind-rt2-robotics-vla-model/