认识HITL-TAMP:利用自动化规划和人工控制的混合策略教授机器人复杂的操纵技能的新AI方法

机器人掌握复杂操纵技巧的新AI方法:HITL-TAMP融合自动化规划与人工控制的认知突破

通过观察人类演示教授机器人复杂的操作技能已经取得了有希望的结果。提供详尽的操作演示需要时间和人力成本,使得将该范式扩展到真实世界的长期运作变得具有挑战性。然而,并不是任务的所有方面都是平等的。

NVIDIA和乔治亚理工学院的一项新研究探索了增强任务和动作规划(TAMP)系统的方法,该系统在解决很多可能未来结果的问题方面表现得特别有效。通过探索有限集合的所有可能排列,TAMP方法可以为各种多步操作任务规划行为。每个技能通常是经过手工设计的,但是关闭弹簧盖子或将杆插入孔中等任务对于高效建模来说是非常具有挑战性的。相反,团队利用闭环学习的人类远程操作,仅将必要的能力纳入部署过程中,其余部分由自动化系统处理。这些能力依赖于数据收集过程中的人类远程操作和从收集到的数据中学习的策略进行部署。将TAMP系统与人类远程操作集成存在一些重要的技术难题,必须特别注意确保它们之间的平稳过渡。

<p为了克服这些障碍,他们提供了人机协同的任务和动作规划(HITL-TAMP)系统,该系统以互补的方式集成了TAMP和远程操作。设备使用的TAMP为门控机制允许通过在TAMP系统和人类远程操作之间交替选择进行演示收集。重要的是,TAMP系统会在特定工作计划中促使人类操作员参与,以便他们一次只能异步参与一个演示会话来管理一组机器人。这种技术显著提高了数据收集的效率。它通过仅在需要时要求进行人类演示,从而减少了在长期、接触丰富型任务上收集大规模数据集所需的工作量。为了使用人类数据来训练TAMP门控策略,他们将其数据收集系统与模仿学习框架集成在一起。在教授机器人任务所需的数据、教授任务所需的时间以及教授策略的成功率方面,他们表明这比收集完整任务的人类演示更具性能优势。

<p研究人员对比了具有15名参与者的标准远程操作系统和HITL-TAMP。通过他们的方法,用户可以同时获取三倍以上的演示。只需10分钟的非专家远程操作数据就可以用于训练超过75%成功率的代理程序。通过收集2.1K的演示,涵盖了12个接触丰富型和长期时间任务(如真实的咖啡煮制),HITL-TAMP经常生成接近完美的代理。

<p与完整任务上的人类演示相比,通过TAMP和远程操作的结合,HITL-TAMP在数据收集和策略学习的效率大大提高了。