遇见DeepMind的Robocat:一个新的AI模型,旨在操作多个机器人

机器人正在迅速进入主流文化,然而它们通常因为编程而受到能力的限制。尽管将最近的 AI 进展融入到机器人设计中的潜在益处,但由于需要获取现实世界训练数据的时间,发展通用机器人的进展缓慢。

开发具有同时学习多个任务的能力,并将语言模型的理解能力与助手机器人的实际能力整合起来的机器人,是一个已经进行了广泛研究的领域。

DeepMind 的 RoboCat 是第一个能够在多种类型的真实机器人上解决并适应各种任务的代理人。研究结果表明,RoboCat 学习速度比其他前沿模型快得多。由于它从如此大量和多样化的数据集中学习,所以它可以通过仅有 100 次演示就掌握新技能。这种能力对于开发多功能机器人至关重要,并将通过减少人类监督训练要求加快机器人研究的进展。

他们的多模型 Gato(西班牙语中的“猫”),是 RoboCat 的基础,因为它可以在虚拟和现实世界中处理词汇、视觉和动作。他们的工作将 Gato 的结构与包含数百个机器人臂执行不同工作的视觉和运动数据的大型培训数据集融合在一起。在这个初始的培训阶段之后,团队通过一个“自我改进”的培训循环让 RoboCat 进行新的一组活动。每个新活动都是通过五个阶段学习的:

  • 收集一百到一千个新任务或机器人在人类控制下被展示的示例。
  • 微调 RoboCat 以适应新任务/机器人,以产生具有专业能力的衍生代理。
  • 子代理在新任务/机器人上进行一万次的练习,将其添加到培训数据池中。
  • 将样本数据与用户创作和演示数据混合到 RoboCat 的当前数据集中。
  • 使用更新的数据集重新训练 RoboCat。

最新版本的 RoboCat 基于包含来自真实和模拟机器人臂的数百万个轨迹以及系统自己创建的数据的数据集。通过所有这些培训,收集描绘 RoboCat 将要执行的工作的基于视觉的数据,使用四种不同类型的机器人和许多机器人臂。

RoboCat 在几个小时内就被训练使用了多个机器人臂。尽管是在使用双叉手柄的机械臂进行教学,但它仍然学会了使用带有三指夹持器和两倍受控输入的更复杂的机械臂。RoboCat 学会了熟练地控制这个新的机械臂,以至于在收集了 1000 个人类控制的演示后,成功地拿起了 86% 的齿轮。同样的演示程度使它学会了执行需要精确和知识的任务,比如从碗里选出正确的水果和解决形状匹配难题。

RoboCat 的培训是自我持续的;它学得越多,就越能提高其学习能力。该团队表明,在每个任务的 500 个演示中学习后,RoboCat 的原始版本只比以前看不见的活动效果高出 36%。然而,最新的 RoboCat 在各种活动中接受了培训,并且成功率提高了一倍。

该团队认为,RoboCat 将为新一代更有帮助的通用机器人代理铺平道路,因为它可以自主学习并迅速发展技能,特别是在应用于多个机器人设备时。