杜克大学研究人员提出了政策编织:一种新颖的人工智能框架,可以促进机器人在新的机器人和任务组合上进行转移学习

「杜克大学研究人员提出政策编织:一种推动机器人在新机器人和任务组合中进行转移学习的创新人工智能框架」

“`html

在机器人技术中,研究人员在使用强化学习(RL)让机器人学习新技能时面临着挑战,因为这些技能对环境和机器人结构的变化非常敏感。目前的方法需要在处理复杂的现实世界任务时具备架构复杂性和强大的正则化能力。为了解决这个问题,杜克大学和空军研究实验室的研究人员引入了策略拼接(PS)的方法。这种方法能够将分别训练的机器人和任务模块组合起来,为快速适应创建一个新的策略。通过涉及3D操纵任务的模拟和真实世界实验,PS展示出了出色的零样本和少样本迁移学习能力。

在将机器人策略在不同的环境条件和新任务间进行迁移方面仍然存在着挑战。以前的工作主要集中在移动强化学习框架中的特定组件上,包括价值函数、奖励、经验样本、策略、参数和特征。元学习成为一个解决方案,可以快速适应新任务,提供改进的参数初始化和基于记忆的神经网络,以便快速整合新数据而不会抹去先前的知识。组合强化学习在零样本迁移学习、多任务学习和终身学习中展示了潜力。然而,该框架内的训练模块只能在大型模块化系统内使用,并不能与新模块无缝集成。

相对于人类根据过去的知识持续获得新技能的能力,机器人系统在将学习到的经验转移到新任务和身体配置上面临着挑战。基于模型的机器人学习旨在为各种任务建立机器人运动学和动力学的预测模型。相反,无模型强化学习训练端到端的策略,但其迁移学习性能通常有限。当前的多任务强化学习方法面临的困难是,随着任务数量的增加,策略网络的容量呈指数级扩展。

PS利用模块化策略设计和可迁移表示的特点,促进了不同任务和机器人配置之间的知识转移。这种框架适用于各种无模型强化学习算法。该研究建议将相对表示的概念从监督学习扩展到无模型强化学习,重点是通过将中间表示在共同的潜在坐标系统中对齐来促进变换的不变性。

在模拟和真实世界的场景中,PS在新的机器人-任务组合的零样本和少样本迁移学习方面表现出色,超越了现有的方法。在零样本迁移中,PS在触摸方面的成功率达到了100%,总体成功率达到了40%,展示了其在实际的真实世界环境中高效推广的能力。潜在表示的对齐显著减少了拼接策略中高维潜在状态之间的配对距离,突显了它在促进PS可学习可迁移表示方面的成功。该实验为PS在物理机器人设置中的实际可应用性提供了实用的见解,为PS提供了无效的移动表达。

总而言之,PS证明了其在无缝地将机器人学习策略转移到新的机器人-任务组合上的效果,凸显了模块化策略设计和潜在空间的对齐的优势。该方法旨在克服当前的限制,特别是高维状态表示和对微调的需求。该研究还提出了未来研究方向,包括探索自监督技术用于解开锚点选择中的潜在特征,并研究无需依赖锚定状态的网络模块对齐的替代方法。该研究强调了将PS扩展到具有不同形态的更广泛的机器人平台的潜力。

“`