“加利福尼亚大学圣地亚哥分校研究人员发布TD-MPC2:革新多领域基于模型的强化学习”

加州大学圣地亚哥分校研究团队发布TD-MPC2:引领模型驱动强化学习在多个领域的革新

大型语言模型(LLMs)在人工智能和机器学习的进步下不断改进。LLMs在人工智能的子领域,包括自然语言处理、自然语言理解、自然语言生成和计算机视觉方面取得了重大进展。这些模型通过大规模互联网数据集进行训练,开发出可以处理各种语言和视觉任务的通用模型。可用的大规模数据集和良好设计的架构,能够有效地与数据和模型大小进行扩展,被认为是这种增长的原因。

近年来,LLMs已经成功地扩展到机器人领域。然而,尚需实现一个可以通过大量未经筛选数据集中的低级行为学习多种控制任务的通用实体代理。目前通用实体代理的方法面临两个主要障碍,如下所述。

  1. 近乎专家轨迹的假设:由于可用数据量的严重限制,许多现有的行为克隆方法依赖于近乎专家级的轨迹。这意味着代理人在不同任务上的灵活性较低,因为它们需要类似专家的高质量演示来进行学习。
  1. 缺乏可扩展的连续控制方法:许多可扩展的连续控制方法无法有效处理大规模未经筛选的数据集。许多现有的强化学习(RL)算法依赖于任务特定的超参数,且经过了单任务学习的优化。

作为解决这些挑战的方案,一支由研究人员组成的团队最近推出了TD-MPC2,这是一种基于模型的强化学习算法家族TD-MPC(Trajectory Distribution Model Predictive Control)的扩展。利用跨越多个任务领域、实体和动作空间的大量未经筛选的数据集训练了TD-MPC2,这是一种用于构建通用世界模型的系统。它的一个重要特征是不需要调整超参数。

TD-MPC2的主要组成部分如下。

  1. 在潜在空间中进行局部轨迹优化:无需解码器,TD-MPC2在经过训练的隐式世界模型的潜在空间中进行局部轨迹优化。
  1. 算法的鲁棒性:通过重新审视重要的设计决策,算法变得更加弹性。
  1. 适用于多个实体和动作空间的架构:在不需要先前领域专业知识的情况下,该架构经过精心设计,支持具有多个实体和动作空间的数据集。

团队表示,通过评估,TD-MPC2在多种连续控制任务中的表现通常好于目前使用的基于模型和无模型的方法。在难度较高的子任务,如拿取和放置任务以及运动任务中,它表现尤为出色。随着模型和数据规模增长,代理的能力表明了可扩展性。

团队总结了TD-MPC2的一些显著特点,如下所述。

  1. 性能提升:在各种强化学习任务上使用时,TD-MPC2相比基线算法提供了增强效果。
  1. 与一组超参数的一致性:TD-MPC2的一个关键优势是,它能够可靠地用一组超参数产生令人印象深刻的结果。这简化了调整过程,并有助于应用于各种工作。
  1. 可扩展性:随着模型和数据规模的增长,代理的能力也增强。这种可扩展性对于处理更复杂的工作和适应不同情况至关重要。

团队训练了一个参数数量达到3.17亿的单一代理,以完成80个任务,展示了TD-MPC2的可扩展性和效能。这些任务涉及多个实体,即代理的物理形式,以及多个任务领域中的动作空间。这证明了TD-MPC2在解决各种困难时的灵活性和强大能力。