来自伦敦帝国理工学院和DeepMind的研究人员设计了一个人工智能框架,将语言作为强化学习智能体的核心推理工具

Researchers from Imperial College London and DeepMind have designed an AI framework that uses language as the core reasoning tool for reinforcement learning agents.

近年来,深度学习领域取得了重大突破,特别是在人工智能的热门子领域中,包括自然语言处理(NLP)、自然语言理解(NLU)和计算机视觉(CV)。在NLP框架下,已经创建了大规模语言模型(LLMs),展示了与人类才能相媲美的出色语言处理和文本生成能力。另一方面,没有任何明确的指导下,CV的视觉变换器(ViTs)能够从照片和视频中学习有意义的表示。还开发了视觉-语言模型(VLMs),可以将视觉输入与语言描述相连接,或者反过来。

基础模型在涉及各种输入模态的广泛下游应用中进行了预训练,利用了大量的文本和视觉数据,从而产生了一些重要的属性,如常识推理、提出和排序子目标以及视觉理解。利用基础模型的能力来创建更有效和全面的强化学习(RL)代理的前景是研究人员的研究课题。RL代理通常通过与周围环境的交互和获得奖励作为反馈来获取知识,但这种试错学习的方法可能耗时且行不通。

为了解决这些限制,一组研究人员提出了一个框架,将语言置于强化学习机器人代理的核心,特别是在需要从头开始学习的情况下。他们的工作的核心贡献是展示了通过利用LLMs和VLMs,他们可以有效地解决特别是四个RL设置中的几个基本问题。

  1. 在稀疏奖励设置下的高效探索:RL代理很难学习到最佳行为,因为它们经常发现在奖励较少的环境中很难进行探索。建议的方法通过利用基础模型中保存的知识,使得在这些环境中的探索和学习更加有效。
  1. 重复使用收集到的数据进行顺序学习:该框架允许RL代理在遇到新任务时基于先前收集到的数据进行建模,而不是每次都从头开始,从而有助于顺序学习新任务。
  1. 为新任务安排学习到的能力:该框架支持对学习到的能力进行调度,使代理能够以其当前的知识高效地处理新任务。
  1. 从专家代理的观测中学习:通过使用基础模型从专家代理的观测中学习,学习过程可以变得更加高效和快速。

该团队总结了主要贡献如下:

  1. 该框架的设计使得RL代理能够基于文本信息更有效地推理和判断,利用语言模型和视觉语言模型作为基本推理工具。这种方法改善了代理理解具有挑战性任务和环境的能力。
  1. 所提出的框架显示了其在解决过去需要不同特殊设计的算法的基本RL问题中的效率。
  1. 新框架在稀疏奖励的机器人操作设置中优于传统基准技术。
  1. 该框架还表明它可以有效地利用先前学到的技能完成任务。代理的泛化能力和适应性通过将学到的信息迁移到新情境中得到了增强。
  1. 它展示了RL代理如何通过模仿人类专家的电影准确地从可观察的示范中学习。

总之,研究表明语言模型和视觉语言模型有能力成为强化学习代理推理的核心组件。