高通AI研究的这篇AI论文揭示了EDGI:一种开创性的均匀扩散器,用于先进的基于模型的强化学习和高效规划

高通AI研究的这篇论文揭示了EDGI:一种开创性的均匀扩散器,用于先进的基于模型的强化学习和高效规划

无处不在的对称性。物理学的普遍原则适用于空间和时间。当空间坐标被平移、旋转和时间平移时,它们表现出对称性。此外,如果几个相似或等效的物品用数字标记,则系统关于标记的排列具有对称性。实体化代理遇到这种结构,很多日常机器人活动显示出时间、空间或排列对称性。四足动物的步态与其运动方向无关;同样,机器人夹持器可能与几个相同物品进行交互,而不考虑它们的标签。然而,这种丰富的结构需要大多数规划和强化学习算法考虑到。 

即使在经过足够训练后对于明确定义的问题显示出强大的结果,但这些算法经常表现出采样效率低和对环境变化缺乏韧性。研究团队认为,为了提高其采样效率和韧性,有必要创建了解其对称性的强化学习算法。这些算法应满足两个重要要求。首先,世界和策略模型需要在相关的对称性群上具有等变性。这通常是分离时移群Z、空间对称群SE(3)的乘积群,以及一个或多个物体排列群Sn对于实体化代理。其次,在实际问题中,轻微地破坏(部分)对称群应该是可行的。将物体移动到指定的空间位置可以破坏空间对称群SE(3)的目标可能是机器人夹持器的目标。关于等变强化学习的首次努力揭示了这种技术的潜在优势。然而,这些研究通常只考虑微小的有限对称群,例如Cn,而且通常不允许根据测试中所需的任务轻微地破坏对称性。 

在这项研究中,高通的研究团队提出了一种基于模型的等变强化学习和规划方法,称为Equvairiant Diffuser for Generating Interactions (EDGI)。EDGI的基础元素对整个乘积群SE(3) × Z × Sn具有等变性,并且它适应了研究人员预计在实体化背景下可能遇到的该群的许多表示。此外,根据任务要求,EDGI允许在测试时灵活地轻微地破坏对称性。他们的方法基于先前研究人员提出的Diffuser方法,该方法解决了在学习动力学模型和在其中进行规划的情况下生成建模的挑战。Diffuser的主要概念是在一个离线数据集上训练扩散模型的过程。使用分类器引导来优化奖励,在当前状态的条件下计划该模型中的一个样本。他们的主要贡献是一种新的扩散模型,允许多表示数据,并对空间、时间和排列对称性的乘积群SE(3) × Z × Sn具有等变性。

研究团队提出了创新的时间、物体和排列层,这些层对每个对称性进行操作,并采用了一种将多个输入表示嵌入到单个内部表示中的新方法。他们的方法结合了分类器引导和条件,使规划算法中的对称性群能够在测试时根据任务要求进行轻微的破坏。研究团队使用机器人物品处理和3D导航设置来客观地展示了EDGI。在使用一个数量级较少的训练数据的情况下,研究团队发现EDGI在低数据域中显著提高了性能,与最佳非等变基准性能相匹配。此外,EDGI在以前未发现的配置上有很好的泛化效果,并且在环境中对称性变化方面具有明显更好的韧性。