麻省理工学院和加州大学伯克利分校的研究人员引入了一个框架,使人类能够用最少的努力迅速教会机器人他们想要它做什么

Researchers from MIT and UC Berkeley have introduced a framework that allows humans to quickly teach robots what they want them to do with minimal effort.

与纽约大学和加州大学伯克利分校合作,麻省理工学院的研究人员开发出一种划时代的框架,使人类能够有效地教导机器人如何在家庭环境中执行任务,而付出的努力最小。这种创新的方法能够显著提高机器人在新环境中的适应能力,使它们能够更好地在不同场景下为老年人和残障人士提供帮助。

机器人面临的关键挑战是它们在训练过程中遇到的意外情况或未曾遇到过的物体。因此,机器人常常无法识别和执行涉及陌生物品的任务。当前的训练方法使用户无法理解机器人失败的原因,导致重新训练过程令人沮丧且耗时。

麻省理工学院的研究人员解释说,缺乏识别失败原因并提供反馈的机制妨碍了学习过程。为了解决这个问题,研究人员开发了一种基于算法的框架,当机器人无法完成任务时,它会生成反事实的解释。这些解释提供了使机器人成功所需的修改的见解。

当面临失败时,系统会生成一组反事实的解释,说明哪些更改会使机器人成功完成任务。然后,将这些反事实呈现给人类用户,并要求对失败进行反馈。这些反馈结合生成的解释,用于创建新数据,以优化机器人的性能。

优化是指对已经训练好的机器学习模型进行微调,以便高效地执行类似但有所不同的任务。通过这种方法,研究人员能够相比传统方法更有效地训练机器人,减少用户所需的时间。

重新训练机器人执行特定任务的一种常见方法是通过模仿学习,即用户演示所需的动作。然而,这种传统方法可能导致机器人只具有有限的理解,比如将杯子与特定颜色关联起来。研究人员解释说,教导机器人认识到杯子是杯子,而不论其颜色如何,可能会很繁琐,需要多次演示。

为了克服这个限制,研究人员的系统确定用户希望机器人与之互动的特定物体,并确定哪些视觉方面对任务来说不重要。然后,通过一种称为数据增强的过程,通过改变这些“不重要”的视觉元素生成合成数据。

该框架遵循以下三个步骤:

  1. 呈现导致机器人失败的任务。
  2. 收集用户的演示以了解所需的动作。
  3. 通过探索可能的修改生成反事实的解释,以使机器人成功。

通过结合人类反馈和生成大量增强演示,该系统更有效地优化了机器人的学习过程。

研究人员进行了研究以评估他们的框架的有效性,参与其中的人类用户被要求确定可以在不影响任务的情况下更改的元素。结果表明,人类在这种类型的反事实推理方面表现出色,突显了这一步骤在将人类推理与机器人推理相结合中的有效性。

研究人员通过模拟验证了他们的方法,训练机器人执行导航到目标物体、解锁门和将物体放置在桌面上等任务。在每种情况下,他们的方法都优于传统技术,使机器人能够更快、少演示地学习。

未来,研究人员计划将他们的框架应用于实际机器人,并继续探索使用生成式机器学习模型减少创建新数据所需的时间的方法。最终目标是使机器人具备类似人类的抽象思维,使它们能够更好地理解任务和周围环境。

成功实施这一框架具有革命机器人领域的潜力,为高度适应和多功能的机器人铺平道路,使它们能够无缝地融入我们的日常生活,在不同环境中提供有价值的帮助和支持。