AI对于桌游《外交》的应用
AI在桌游《外交》中的应用
通过沟通、协商和制裁破坏承诺,代理人能够更好地合作并保持诚实
成功的沟通和合作一直是帮助社会进步的关键。棋盘游戏的封闭环境可以作为建模和研究互动和沟通的沙盒,我们可以从中学到很多东西。在我们最近发表于《自然通讯》的论文中,我们展示了人工智能代理人如何利用沟通在棋盘游戏《外交》中更好地合作,这是人工智能研究中一个充满活力的领域,以联盟建立为其重点。
《外交》具有简单的规则,但由于玩家之间的强烈相互依赖和庞大的行动空间,它具有高级复杂性。为了解决这个挑战,我们设计了谈判算法,允许代理人进行沟通并达成共同计划,使它们能够克服缺乏这种能力的代理人。
当我们无法依赖同行们实现他们的承诺时,合作变得尤为困难。我们将《外交》用作探索代理人可能违背过去协议的情况的沙盒。我们的研究阐明了当复杂代理人能够歪曲其意图或误导他人关于其未来计划时出现的风险,这引发了另一个重要问题:什么条件能促进值得信赖的沟通和团队合作?
我们表明制裁违背合同的同行显著降低了他们通过放弃承诺获得的优势,从而促进了更诚实的沟通。
什么是《外交》以及为什么它很重要?
象棋、扑克、围棋和许多电子游戏等游戏一直是人工智能研究的肥沃土壤。《外交》是一款七人博弈、谈判和联盟形成的游戏,以一个被分割成省份的古老欧洲地图为背景,每个玩家控制多个单位(《外交》规则)。在游戏的标准版本中,称为Press Diplomacy,每个回合都包括一个谈判阶段,之后所有玩家同时揭示他们选择的行动。
《外交》的核心是谈判阶段,玩家试图就下一步行动达成协议。例如,一个单位可以支持另一个单位,使其能够克服其他单位的阻力,如下所示:
自上世纪80年代以来,人们对《外交》进行了计算研究,其中许多研究是在一个称为No-Press Diplomacy的简化版本上进行的,该版本不允许玩家之间进行战略沟通。研究人员还提出了计算机友好的谈判协议,有时被称为“Restricted-Press”。
我们研究了什么?
我们将《外交》作为对真实世界谈判的类比,为人工智能代理人提供协调行动的方法。我们将不进行沟通的《外交》代理人改进为具有沟通能力的《外交》代理人,给它们提供了一个协商合同以制定共同行动计划的协议。我们将这些改进的代理人称为基准谈判者,他们受到协议的约束。
我们考虑两种协议:相互提议协议和提议选择协议,详细讨论在完整论文中。我们的代理人应用算法,通过模拟游戏在各种合同下可能的进展来确定互利交易。我们使用博弈论中的纳什谈判解作为确定高质量协议的原则基础。由于游戏可能因玩家的行动而有多种进展方式,所以我们的代理人使用蒙特卡洛模拟来预测下一回合可能发生的情况。
我们的实验表明,我们的谈判机制使基准谈判者能够显著优于基准非沟通代理。
代理人违反协议
在外交中,谈判期间达成的协议并不具有约束力(沟通是“廉价言辞”)。但是,当代理人在一回合中同意一项合同后偏离该合同,会发生什么情况呢?在许多现实生活中的情境中,人们同意以某种方式行动,但后来未能履行承诺。为了实现AI代理人或代理人与人类之间的合作,我们必须研究代理人有意违反协议的潜在风险,并找到解决这个问题的方法。我们使用外交来研究放弃承诺的能力如何破坏信任和合作,并确定促进诚实合作的条件。
因此,我们考虑偏离者代理人,通过偏离达成的合同,超越了诚实的基准谈判者。简单的偏离者只是“忘记”他们同意了一项合同,并按照自己的意愿行动。条件性偏离者更加复杂,他们优化自己的行动,假设其他接受合同的玩家将按照合同行动。
我们发现,简单和条件异常者明显优于基线谈判者,条件异常者表现尤为突出。
鼓励代理人诚实
接下来,我们通过采用防御代理人来解决偏离问题,这些代理人对偏离作出不利回应。我们研究二进制谈判者,他们只是简单地中断与违反协议的代理人的通信。但是,避开是一种温和的反应,所以我们还开发了制裁代理人,他们不会轻易原谅背叛,而是修改他们的目标,积极试图降低偏离者的价值 – 一个怀恨之敌!我们发现,这两种类型的防御代理人都能够减少偏离的优势,尤其是制裁代理人。
最后,我们引入了学习型异常者,他们在多个游戏中对制裁代理人的行为进行调整和优化,试图使上述防御措施变得不那么有效。学习型异常者只有在即时的偏离收益足够高且对方代理人报复能力足够低的情况下才会违反合同。实际上,学习型异常者偶尔会在游戏的后期违反合同,并通过这样做来获得轻微的优势,超过制裁代理人。尽管如此,此类制裁驱使学习型异常者遵守超过99.7%的合同。
我们还研究了制裁和偏离的可能学习动态:当制裁代理人也可能违反合同时会发生什么,以及在这种行为成本高昂时停止制裁的潜在动机。这些问题可能会逐渐侵蚀合作,因此可能需要额外的机制,如多个游戏中的反复互动或使用信任和声誉系统。
我们的论文为未来的研究留下了许多问题:设计更复杂的协议以鼓励更诚实的行为是否可能?如何处理通信技术和不完全信息的结合?最后,还有哪些机制可以阻止协议的破坏?建立公平、透明和值得信赖的人工智能系统是一个非常重要的主题,也是DeepMind使命的关键部分。在像《外交》这样的沙盒中研究这些问题有助于我们更好地理解合作与竞争之间可能存在的紧张关系。最终,我们相信解决这些挑战可以让我们更好地理解如何根据社会的价值观和优先事项发展人工智能系统。
在此处阅读我们的完整论文。