具有演绎推理的AI机器人可以在多人隐藏角色游戏中击败人类

该机器人使用演绎推理来识别朋友或敌人，以确保在某些在线游戏中战胜人类。

麻省理工学院的研究人员开发了一种配备有人工智能的机器人，该机器人可以在棘手的在线多人游戏中击败人类玩家，而其中的玩家角色和动机是秘密的。

已经建立了许多游戏机器人来跟上人类玩家的步伐。今年早些时候，卡内基梅隆大学的一个团队开发了世界上第一个可以击败多人扑克专业人士的机器人。DeepMind的AlphaGo在2016年成为头条新闻，击败了专业的Go播放器。还建立了一些机器人来击败专业的国际象棋棋手或联手合作合作游戏，例如在线夺旗。但是，在这些游戏中，机器人从一开始就了解其对手和队友。

在下个月的神经信息处理系统大会上，研究人员将展示DeepRole，这是第一个可以赢得在线多人游戏的游戏机器人，参与者最初对团队的忠诚度尚不清楚。该机器人的设计是将新颖的“演绎推理”添加到通常用于玩扑克的AI算法中。这有助于其推理出部分可观察的动作，从而确定给定玩家是队友或对手的可能性。通过这样做，它可以快速了解与谁结盟以及采取哪些行动来确保其团队的胜利。

研究人员在超过4,000轮在线游戏“抵抗”中将DeepRole与人类玩家相提并论。阿瓦隆。在该游戏中，玩家尝试在游戏进行过程中推断同伴的秘密角色，同时隐藏自己的角色。作为队友和对手，DeepRole始终优于人类选手。

“如果用机器人代替人类的队友，则可以期望团队获得更高的获胜率。机器人是更好的合作伙伴。”第一作者杰克·塞里诺（Jack Serrino ’18）说，他是麻省理工学院电气工程和计算机科学专业的学生，是狂热的在线“阿瓦隆”玩家。

这项工作是一个更广泛的项目的一部分，该项目旨在更好地模拟人类如何做出具有社会知情权的决策。这样做可以帮助构建更好地理解，学习人类并与人类合作的机器人。

“人类向他人学习并与他人合作，这使我们能够共同实现我们一个人无法独自完成的事情，”合著者马克斯·克莱曼·魏纳（Max Kleiman-Weiner）说，他是大脑，思维和机器中心以及美国国防部的博士后。麻省理工学院和哈佛大学的脑与认知科学。“像“阿瓦隆”这样的游戏可以更好地模仿人们在日常生活中所经历的动态社交环境。无论是在幼儿园的第一天还是在办公室的第二天，您都必须找出团队中的哪些人并与您一起工作。

哈佛大学的David C. Parkes和计算机认知科学教授，麻省理工学院计算机科学与人工智能实验室以及脑，思维和机器中心的成员Joshua B. Tenenbaum与Serrino和Kleiman-Weiner一起发表论文。

演绎机器人

在“阿瓦隆”中，三名球员被随机秘密地分配给“抵抗”队，两名球员被分配给“间谍”队。两名间谍玩家都知道所有玩家的角色。在每个回合中，一个玩家提议一个由两个或三个玩家组成的子集来执行任务。所有参与者同时并公开投票批准或拒绝该子集。如果获得多数同意，则该子集会秘密确定任务是成功还是失败。如果选择两个“成功”，则任务成功；否则，任务将失败。如果选择一个“失败”，则任务失败。反抗玩家必须始终选择成功，但间谍玩家可以选择任一个结果。抵抗队在成功执行三个任务后获胜；在执行了三个失败的任务后，间谍团队获胜。

赢得游戏基本上归结为推论谁是反抗或间谍，然后投票给您的合作者。但这实际上比下棋和扑克要复杂得多。克莱曼·韦纳（Kleiman-Weiner）说：“这是一个信息不完善的游戏。”“您甚至不确定一开始时会遇到谁，因此还有一个发现阶段，寻找与谁合作。”

DeepRole使用一种称为“反悔最小化”（CFR）的游戏计划算法，该算法通过反复与自己对战来学习玩游戏，并增加了演绎推理。在游戏的每个点上，CFR都会前瞻性地创建一个由线条和节点组成的决策“游戏树”，以描述每个玩家的潜在未来动作。游戏树代表每个玩家在每个未来决策点可以采取的所有可能的动作（线）。在进行可能数十亿次的游戏模拟时，CFR指出哪些动作增加或减少了获胜的机会，并反复修改其策略以包括更多的好的决策。最终，它计划了一种最佳策略，在最坏的情况下，它会与任何对手联系在一起。

CFR非常适合像扑克之类的游戏，并且可以通过公共行动（例如下注钱和弃牌）来进行，但是当行动是秘密的时候，CFR会遇到困难。研究人员的CFR结合了公共行为和私人行为的后果，以确定参与者是反抗还是间谍。

该机器人是通过对抗自己作为抵抗力和间谍来进行训练的。在玩在线游戏时，它使用其游戏树来估计每个玩家将要做什么。游戏树代表一种策略，该策略使每个玩家有最大的获胜机会作为指定角色。树的节点包含“反事实值”，基本上是对玩家在执行给定策略时所获得的回报的估计。

在执行每个任务时，机器人会查看每个人与游戏树相比的玩法。如果在整个游戏过程中，玩家做出的决定与机器人的期望不一致，那么该玩家可能会扮演另一个角色。最终，机器人为每个玩家的角色分配了很高的概率。这些概率用于更新机器人的策略，以增加其获胜的机会。

同时，它使用相同的技术来估计第三人称观察者如何解释自己的行为。这有助于估计其他参与者的反应，从而做出更明智的决策。“如果执行的两人任务失败，那么其他玩家就会知道其中一位是间谍。该机器人很可能不会在未来的任务中提议同一个团队，因为它知道其他玩家认为这很糟糕。”塞里诺说。

语：下一个前沿

有趣的是，该机器人不需要与其他玩家进行交流，这通常是游戏的关键组成部分。“ Avalon”使玩家能够在游戏过程中在文本模块上聊天。Kleiman-Weiner说：“但是事实证明，我们的机器人能够与其他人一起很好地工作，同时仅观察玩家的行为。”“这很有趣，因为人们可能会认为这样的游戏需要复杂的沟通策略。”

接下来，研究人员可以使机器人在游戏过程中使用简单的文字进行交流，例如说出玩家的好坏。这将涉及将文本分配给玩家抵抗或间谍的相关概率，机器人已使用该概率做出决策。除此之外，未来的机器人可能会配备更复杂的通讯功能，使其能够玩重语言的社交演绎游戏，例如流行的游戏“狼人”，其中涉及数分钟的争论并说服其他玩家了解谁在游戏中。好的和坏的团队。

“语言绝对是下一个领域，” Serrino说。“但是在沟通至关重要的那些游戏中，攻击存在许多挑战。”

参考：Jack Serrino，Max Kleiman-Weiner，David C. Parkes和Joshua B. Tenenbaum.arXiv撰写的“在多代理游戏中寻找朋友和敌人”
1906.02330v1（PDF）