DeepMind研究人员推出AlphaStar Unplugged:通过掌握实时策略游戏StarCraft II,实现了大规模离线强化学习的重大突破
DeepMind researchers release AlphaStar Unplugged achieved a major breakthrough in large-scale offline reinforcement learning by mastering the real-time strategy game StarCraft II.
游戏长期以来一直是评估人工智能(AI)系统能力的重要测试场所。随着AI技术的发展,研究人员寻求更复杂的游戏来评估与现实世界挑战相关的各种智能方面。《星际争霸》是一款实时战略(RTS)游戏,由于其复杂的游戏玩法,已成为AI研究的“重大挑战”,推动了AI技术在导航其复杂性方面的边界。
与早期在Atari、马里奥、Quake III Arena Capture the Flag和Dota 2等视频游戏中取得的AI成就相比,这些成就基于在线强化学习(RL),通常涉及限制游戏规则、提供超人能力或使用简化地图,而《星际争霸》的复杂性对于AI方法来说是一个巨大的障碍。然而,这些在线强化学习(RL)算法在这个领域取得了显著的成功。然而,它们的互动性质对于现实世界的应用提出了挑战,需要高度的互动和探索。
本研究介绍了一种转变性的离线RL方法,允许代理从固定数据集中学习,这是一种更实用和更安全的方法。虽然在线RL在互动领域表现出色,但离线RL利用现有数据创建可部署的策略。DeepMind研究人员推出的AlphaStar项目成为第一个击败顶级职业星际争霸选手的AI,标志着一个重要的里程碑。AlphaStar通过在原始游戏数据上进行监督学习和强化学习来掌握《星际争霸II》的游戏玩法。
利用《星际争霸II》中丰富的人类玩家回放数据集,这个框架使得代理的训练和评估不需要直接与环境进行互动。《星际争霸II》具有部分可观测性、随机性和多智能体动态等独特挑战,因此成为推动离线RL算法能力边界的理想测试场所。通过将传统的在线RL方法与离线RL方法相结合,《AlphaStar Unplugged》建立了一个适用于复杂、部分可观测的游戏,如《星际争霸II》的基准。
《AlphaStar Unplugged》的核心方法围绕着几个关键贡献,建立了这个具有挑战性的离线RL基准:
- 训练设置采用固定数据集和定义的规则,以确保方法之间的公平比较。
- 引入一套新颖的评估指标,准确衡量代理的性能。
- 提供一系列经过调优的基准代理作为实验的起点。
- 鉴于为《星际争霸II》构建有效代理所需的相当大的工程工作,研究人员提供了一个经过良好调优的行为克隆代理,为论文中详细介绍的所有代理提供了基础。
《AlphaStar Unplugged》的架构涉及几个参考代理,用于基准比较和指标评估。《星际争霸II》API的输入围绕着三个模态:向量、单位和特征平面。动作包括七个模态:功能、延迟、队列、重复、单位标签、目标单位标签和世界动作。多层感知器(MLP)对向量输入进行编码和处理,变压器处理单位输入,残差卷积网络处理特征平面。通过单位散射、向量嵌入、卷积重塑和内存使用,模态之间相互连接。内存被整合到向量模态中,并且在行动抽样中使用值函数。
实验结果突出展示了离线RL算法的显著成就,对先前领先的AlphaStar监督代理实现了90%的胜率。值得注意的是,这一表现仅通过利用离线数据实现。研究人员预计他们的工作将显著推进大规模离线强化学习研究。
该矩阵显示了参考智能体的标准化胜率,范围在0到100之间。请注意,平局会影响总计,而AS-SUP代表原始的AlphaStar Supervised智能体。
总之,DeepMind的“AlphaStar Unplugged”引入了一个前所未有的基准,推动了离线强化学习的边界。通过利用《星际争霸II》复杂的游戏动态,这个基准为RL研究中的改进训练方法和性能评估指标奠定了基础。此外,它还突显了离线强化学习在弥合模拟和现实世界应用之间差距方面的潜力,为在复杂环境中训练RL智能体提供了更安全、更实用的方法。