请查看这个名为“游戏之子(SoG)”的新人工智能系统,它能够在各种游戏中击败人类,并学会玩新游戏

“美妆达人:带你领略“游戏之子(SoG)”新人工智能系统的魅力,轻松征服各类游戏并善于掌握新游戏技巧”

利用游戏作为人工智能绩效指标的传统已有很长历史。在各种完全信息游戏中,搜索和基于学习的方法表现良好,而基于博弈论的方法则在几种不完全信息的扑克变体中表现出色。EquiLibre Technologies、索尼AI、Amii和Midjourney的人工智能研究人员与谷歌的DeepMind项目合作,通过结合定向搜索、自我对弈学习和博弈理论推理,提出了学生AI(Student of Games),一种通用算法,它统一了之前的努力。凭借其在大型完全和不完全信息游戏中的高实证表现,学生AI是开发适用于任何环境的通用算法的重要一步。随着计算和逼近能力的增强,他们展示了学生AI的稳健性并最终实现了完美的游戏。学生AI在国际象棋和围棋中表现出强大的实力,击败了公开可用的最强代理人,在无限制德州扑克的单挑对决中击败了最新的代理人,在苏格兰场上击败了最先进的代理人。这个不完全信息游戏展示了引导搜索、学习和博弈理论推理的价值。

为了展示人工智能的进展有多么巨大,一台计算机被教会打一种棋盘游戏,并逐渐提高到可以击败人类。通过这项最新研究,团队在创建人工通用智能方面取得了重大进展,即计算机可以执行先前被认为对机器来说是不可能的任务。

大多数下棋电脑只被设计成只能下一种棋,比如国际象棋。通过设计和构建这样的系统,科学家们创建了一种受限的人工智能形式。这个新项目的研究人员开发了一个智能系统,可以竞争在需要广泛能力的游戏中。

什么是SoG – “学生AI”?

将搜索、学习和博弈理论分析结合到一个算法中,SoG具有许多实际应用。SoG包括用于学习合成可变博弈树网络(CVPNs)和可靠的自我对弈的GT-CFR技术。特别是在优化和次优信息游戏中,SoG是一个可靠的算法:随着计算资源的改进,SoG能够更好地近似极小最优技术。这个发现在Leduc扑克中也在经验上得到了证明,通过额外的搜索可以进行测试时的近似精炼,这是任何不使用搜索的纯RL系统所不能做到的。

为什么SoG如此有效?

SoG采用了一种称为增长树反事实遗憾最小化(GT-CFR)的技术,这是一种可以随时执行的局部搜索形式,涉及非均匀构造子游戏来增加与最重要的未来状态相关联的子游戏的权重。此外,SoG采用了一种称为可靠的自我对弈的学习技术,该技术基于游戏结果和递归子搜索应用于早期搜索中发现的场景来训练值网络和策略网络。作为通用算法的重要一步,SoG在与完全和不完全信息相关的多个问题领域都表现出良好的性能。在次优信息游戏中,标准的搜索应用面临众所周知的问题。

算法总结

SoG方法使用声音自我对弈来指导代理:在做出选择时,每个玩家使用GT-CFR搜索与CVPN相结合,为当前状态生成一个策略,然后随机选择一个动作。GT-CFR是一个两阶段过程,从当前公共状态开始,最终形成一棵成熟的树。在遗憾更新阶段,更新当前公共树的CFR。在扩展阶段,根据模拟添加新的一般形式到树中的扩展轨迹。GT-CFR迭代包括一个遗憾更新阶段运行和一个扩展阶段运行。

值网络和策略网络的训练数据是通过自我对弈过程生成的:搜索查询(在GT-CFR遗憾更新阶段由CVPN查询的公共信念状态)和完整的游戏轨迹。搜索查询必须解决以根据反事实值目标更新值网络。策略网络可以根据从完整游戏轨迹导出的目标进行调整。演员创建自我对弈数据(并回答查询),而训练者发现和实施新网络,并不时刷新演员。

一些限制

  • 在扑克中使用押注抽象可能会被放弃,转而采用对于广泛行动空间适用的通用动作缩减策略。
  • 采样世界状态并在采样子集上工作的生成模型可能近似于SoG,而SoG目前需要枚举每个公共状态的信息,在某些游戏中可能会代价高昂。
  • 在挑战领域中表现出色通常需要大量的计算资源,有个有趣的问题是是否可以通过更少的资源实现这种水平的性能。

研究团队相信该系统有潜力在其他类型的游戏中取得成功,因为它能够自学如何玩几乎任何游戏,并且它已经击败了竞争对手的人工智能系统和人类在围棋、国际象棋、苏格兰场地和德州扑克中。