CMU研究人员开发了一种简单的远程学习人工智能方法,将视觉先验知识转移到机器人任务中:相较于基准线,政策学习提高了20%

CMU研究人员开发了一种简单的远程学习人工智能方法,将视觉先验知识转移到机器人任务中:相较于基准线,政策学习提高了20%' 'CMU researchers have developed a simple remote learning AI method that transfers visual prior knowledge to robot tasks policy learning improves by 20% compared to the baseline.

机器人学习进展的一个重要障碍是缺乏足够的大规模数据集。机器人学的数据集存在以下问题:(a) 难以扩展,(b) 在无菌、非真实环境(如机器人实验室)中收集,(c) 过于同质化(如带有预设背景和照明的玩具物品)。另一方面,视觉数据集包括各种任务、物体和环境。因此,现代方法探索了将为大规模视觉数据集开发的先验知识引入机器人应用的可行性。

以前的工作使用视觉数据集中编码图片观察为状态向量的预训练表示。然后,将该图形表示简单地发送到使用从机器人收集的数据进行训练的控制器中。由于预训练网络的潜在空间已经包含语义、任务级别的信息,研究团队认为它们可以做更多事情,而不仅仅是表示状态。

卡内基梅隆大学CMU的研究团队的新工作表明,神经图片表示不仅仅是状态表示,因为它们可以使用嵌入空间内创建的简单度量来推断机器人的运动。研究人员利用这种理解,使用非常少的廉价人类数据学习距离函数和动力学函数。这些模块指定了一个在四个典型操纵任务上进行了测试的机器人规划器。

这是通过将预训练表示分为两个不同的模块来实现的:(a) 一个一步动力学模块,根据当前状态/动作预测机器人的下一个状态,和(b) 一个“功能距离模块”,确定机器人在当前状态下离达到目标的距离有多近。使用对比学习目标,只需少量来自人类示范的数据就可以学习距离函数。

尽管这种方法看似简单易用,但该系统已被证明在机器人学习中优于传统的模仿学习和离线强化学习方法。与标准的行为克隆基线相比,该技术在处理多模态动作分布时表现出显著优势。消融研究的结果表明,更好的表示导致更好的控制性能,并且动态基础对于系统在真实世界中的有效性至关重要。

由于预训练表示本身已经完成了困难的任务(由于其结构),并且完全避开了多模态、顺序动作预测的困难,研究结果表明,该方法优于策略学习(通过行为克隆)。此外,学到的距离函数稳定且易于训练,使其具有高可扩展性和普适性。

团队希望他们的工作能够引发机器人学和表示学习领域的新研究。随之而来的未来研究应该通过更好地描述夹具/手和被处理物之间的细粒度交互来进一步改进机器人的视觉表示。这有潜力提高在旋钮旋转等活动中的性能,因为预训练的R3M编码器在检测旋钮的抓握位置微小变化方面存在困难。他们希望研究会在没有动作标签的情况下使用他们的方法来进行完全学习。最后,尽管存在领域差异,如果能够将他们廉价的探棒获取的信息与更强大、更可靠的(商业)夹具结合使用,将会非常棒。