麻省理工学院的研究人员开发出一种人工智能技术,使机器人能够利用整只手来制定复杂的操纵物体的计划
MIT researchers developed an AI technology that allows robots to use their entire hand to plan complex manipulations of objects.
全身操纵是人类的优势,但是机器人的弱点。机器人将盒子和搬运者的手指、手臂或躯干之间的每个可能的接触点解释为独立的接触事件。一旦考虑到数十亿个可能的接触事件,这个任务就变得难以准备。现在,麻省理工学院的研究人员可以简化这个被称为接触丰富的操纵规划的技术。他们使用一种人工智能方法,称为平滑法,来减少从大量接触发生中找到机器人的良好操纵计划所需的判断次数。
强化学习在处理接触丰富动力学方面取得了令人惊异的成果,这在以往使用基于模型的技术实现上曾经具有挑战性。虽然这些技术是有效的,但为什么它们成功而基于模型的方法失败还不为人所知。总体目标是从基于模型的角度把握并理解这些因素。基于这些理解,科学家们致力于将强化学习的实证成功与模型的普适性和效能相结合。
接触动力学的混合性质对于从基于模型的角度进行触觉规划来说是最大的挑战。由于随后的动态是非平滑的,泰勒近似在局部不再成立,使用梯度建立的线性模型迅速失效。由于迭代梯度优化和基于采样的规划都使用局部距离度量,局部模型的无效性对两者都造成了严重困难。针对这些问题,已经有很多出版物试图通过列举或提供示例来考虑接触模式。这些具有对动态模式的基于模型的理解的规划器经常在当前接触模式下进行连续状态规划,并在下一个模式的离散搜索中进行切换,导致轨迹中出现了少数模式的转换。
- 从零开始的强化学习动态定价:Q学习
- DeepMind研究人员介绍了Reinforced Self-Training(ReST):一种简单的算法,通过Growing Batch Reinforcement Learning(RL)受到人类偏好的启发,用于将LLMs与人类偏好对齐
- 嘿开发者:图表不需要那么复杂
研究人员添加的第一件事是证明在框架下,两种平滑策略在基本系统上是理论上等价的。此外,使用这个框架,作者演示了如何实时高效地计算平滑动态的局部线性模型(即梯度),并且他们证明了两种平滑方案的定性特征和实证性能在各种复杂示例中是可比较的。
第二个改进是完整的接触动力学模型。特别地,他们提出了一个隐式的时间步进接触模型,它是凸的。Anitescu对摩擦接触限制的放宽导致了凸性。然而,它在现实中确实引入了一些轻微的非物理行为。与标准的线性互补问题(LCP)公式相比,凸性提供了显著的数值优势。
准动力学假设在机器人操纵中经常被使用,因为它允许长期可预测性。在准动力学模型中,不需要表示速度或阻尼的变量,因为每个时间步长都会损失动能。他们通过在硬接触限制中使用对数障碍函数,验证和测试了准动力学接触模型,通过在硬接触限制中使用对数障碍函数,对凸系统的内点法方法来说是典型的。进一步的工作表明,隐函数定理提供了一种计算平滑接触模型梯度的简单方法。最后,专家们认为,强化学习通过随机性进行全局优化的目标是其实证成功的另一个重要因素。使用确定性模型进行非线性动态规划通常会产生非凸优化问题,其中许多局部极小值的质量可能是决定性的。
最后的贡献解决了这个缺点,将RRT的全局搜索能力与基于平滑的接触模式抽象的能力结合起来。通过使用从局部平滑模型派生的新型距离度量,研究人员使RRT能够在接触动力学所施加的限制范围内进行搜索。
总体贡献
科学家们确定了随机和分析平滑技术在简单系统上的定性和经验等价性。
他们展示了富有接触的操纵规划可以从凸、可微的准动态接触动力学和相关的分析平滑方法中获益。
研究人员将接触模式平滑与基于采样的运动规划相结合,通过丰富的接触动力学实现了有效的全局规划,填补了现有方法谱系中的空白。
研究人员在讨论复杂系统中的接触之前,阐明了平滑函数的数学意义及其局部近似计算的几种策略。他们的目标是呈现出平滑技术的统一图景及其之间的关系。
研究人员之所以做这个研究,是因为发现在具有大量人类接触的实证情况下,强化学习的成功与基于模型的方法的失败之间存在明显差异。他们已经证明了传统的基于模型的方法可以通过识别规划中的陷阱、理解强化学习如何缓解这些陷阱以及用基于模型的技术解决这些问题,有效地处理接触丰富的操纵规划。通过实现在线规划效率在一分钟左右,并且在环境和任务方面具有可推广性,该贡献为强化学习中现有依赖于数小时或数天离线计算的工具提供了强大的替代选择。他们回顾了一些使这一切成为可能的因素。
简而言之,他们在意识到强化学习在实证背景下的成功与基于模型的方法在解决这个问题上的困难之间存在巨大差距后,才开始进行这项研究。他们已经证明了传统的基于模型的方法可以通过识别规划中的陷阱、理解强化学习如何缓解这些陷阱以及用基于模型的技术解决这些问题,有效地处理接触丰富的操纵规划。通过实现在线规划效率在一分钟左右,并且在环境和任务方面具有可推广性,该贡献为强化学习中现有依赖于数小时或数天离线计算的工具提供了强大的替代选择。他们回顾了一些使这一切成为可能的因素。
最初被视为基于模型方法的一个缺陷,显式枚举和评估模式的需求已被强化学习的随机平滑所缓解。接下来,他们提出了基于模型的技术中另一个缺陷:二阶瞬态可能导致短视线性化,对长期策略没有帮助。他们提出了凸可微准动态接触(CQDC)模型来解决这个缺点。他们通过多种理论论证和实验证明了触摸模型的有用性。他们还证明了接触动力学可以通过先评估模型结构,通过对数障碍进行分析平滑来进行解析松弛。他们进行了研究,证明了分析平滑相对于随机平滑的计算优势。
总之,他们发现基于平滑的基于模型的策略与局部轨迹优化有关。与试图进行全局搜索的基于强化学习的技术相比,它们在面对具有挑战性问题时被证明不太成功,因为它们容易受到局部极小值的影响。然而,适用于接触丰富系统的基于平滑的基于模型的技术通过明确考虑接触模式,避免了模式枚举的陷阱。该工作通过将模式平滑与RRT相结合,填补了现有方法中的空白,其中RRT的探索阶段是根据局部马氏距离的局部近似来指导的。通过结合这三个进展,他们使基于模型和基于强化学习的方法能够为具有丰富接触和高维系统实现高效的全局运动规划。在未来,他们将使用高度简化的计划器版本来驱动策略搜索或执行实时运动规划。他们预计这种增强将使机器人能够在规划时间内几秒钟内在线定位先前未探索的接触丰富设计。