Meta的新AI可以通过欺骗来征服一个棋盘游戏世界

它玩“外交”这款游戏的水平比许多人类玩家都高。这是它的工作原理。
map of europe and a globe
Aslı Yılmaz / Unsplash

计算机在越来越多的街机和棋盘 游戏中 表现越来越好,包括国际象棋、围棋、Pong 和 Pac-Man。机器甚至可能改变 电子游戏 在不远的将来是如何开发的。现在,在构建了一个在 扑克 游戏中胜过人类的 AI 机器人之后,Meta AI 的科学家们又创造了一个能够进行更复杂游戏的新程序:一个能够制定策略、理解其他玩家意图,并通过聊天消息与他们沟通或协商计划的程序。  

这个机器人名为 CICERO,它玩“外交”这款游戏的水平比许多人类玩家都高。CICERO 的得分比其人类对手的平均得分高出一倍多,并且在一项在线联赛的 40 场比赛中,其排名跻身前 10%。

该项目是 Meta 的工程师以及哥伦比亚大学、麻省理工学院、斯坦福大学、卡内基梅隆大学、加州大学伯克利分校和哈佛大学的研究人员在过去三年里一直在进行的工作。今天在 《科学》 杂志上发表的一篇论文中描述了 CICERO 的诞生过程。该团队正在开源代码和模型,并将项目中使用的相关数据提供给其他研究人员使用。 

“外交”最初是一款设定在风格化欧洲的棋盘游戏。玩家扮演不同国家的角色,目标是通过达成战略协议和行动计划来获得领土控制权。

Meta AI 研究科学家、该论文的作者之一 Noam Brown 表示:“‘外交’与众不同之处在于它涉及合作、信任,最重要的是,它涉及与其他玩家进行自然语言交流和谈判。”

尽管多年来已经使用了一个不含聊天功能的特殊版本游戏来 测试 AI,但自 2019 年以来语言模型的进步使该团队意识到,有可能教会 AI 完全掌握“外交”游戏的玩法。 

但由于“外交”游戏有这种独特的协作要求,“许多先前用于其他游戏的技巧都不再适用了,”Brown 解释道。 

此前,该团队进行了一项关于不含语言版本的游戏实验,玩家被明确告知,每场游戏中都会有一个机器人和六个人类玩家。“我们发现玩家会积极尝试找出哪个是机器人,然后将其淘汰,”Brown 说。“幸运的是,在这种环境下,我们的机器人可以被伪装成人类,他们实际上很难分辨出哪个是机器人,所以机器人在这场联赛中获得了第一名。” 

但对于完整的“外交”游戏,该团队知道,如果涉及到自然语言的审问,机器人就无法通过图灵测试了。因此,在实验过程中,玩家并不知道他们是在与机器人玩游戏——这个细节直到游戏结束后才被揭露。 

制作 CICERO

为了构建这款能玩“外交”游戏的 AI,该团队构建了两个相互馈送数据的独立处理引擎:一个用于对话(灵感来自 GPT-3、BlenderBot 3、LaMDA 和 OPT-175B 等模型),另一个用于战略推理(灵感来自 AlphaGo 和 Pluribus 等先前的工作)。结合在一起,对话模型(在大量互联网文本数据和来自 webDiplomacy.net 的 50,000 场人类比赛数据上训练)可以传达与计划行动相符的意图。 

Meta AI

反之亦然。当其他玩家与机器人交流时,对话引擎可以将这些信息转化为游戏中的计划和行动,并利用这些信息为策略引擎提供下一步的指导。CICERO 的宏大计划由战略推理引擎制定,该引擎根据棋盘状态、最近的对话内容、玩家在类似情况下的历史走法以及机器人的目标来估算最佳下一步棋。 

[相关:麻省理工学院的科学家教会机器人互相破坏]

“如今的语言模型非常出色,但它们确实有其局限性。我们能从语言模型中分担的策略越多,我们就能做得越好,”Brown 说。“因此,我们有一个对话模型,它以计划为条件,但对话模型不负责制定计划。”也就是说,负责说话的部分和负责规划的部分不是同一个部分。 

机器人使用的规划算法称为 piKL。它首先预测每个人可能做什么以及每个人认为机器人会做什么,然后通过权衡不同走法的价值来细化这个预测。“在进行这种迭代过程时,它会尝试根据我们拥有的数据集权衡人们过去的行为,”Brown 说。“它还试图平衡这一点,并理解玩家在这个游戏中拥有特定的目标,他们试图最大化自己的分数,并且不会犯严重错误,只会犯一些小错误。我们实际上观察到,这种模型比仅仅基于人类数据的初始预测更能模拟人类。” 

Meta AI

“欺骗存在于一个范围内” 

考虑一下“欺骗”这个概念,这是“外交”游戏中一个有趣的方面。在游戏中,每回合开始前,玩家会花 5 到 15 分钟互相交谈和协商计划。但由于这一切都是私下进行的,人们可以进行双重交易。他们可以向一个人许诺,然后告诉另一个人他们会做别的事情。 

但仅仅因为人们可以耍小聪明,并不意味着这是比赛的最佳方式。“很多人刚开始玩‘外交’游戏时,认为它是一场关于欺骗的游戏。但实际上,如果你和有经验的‘外交’玩家交谈,他们会以一种截然不同的方式看待这场游戏,他们说它是一场关于信任的游戏,”Brown 说。“它能够在一个鼓励你不信任任何人的环境中与其他玩家建立信任。‘外交’不是一个你可以独自成功的游戏。你真的需要有盟友。” 

机器人早期版本更加直接欺骗,但结果表现很差。研究人员随后添加了过滤器,使其少撒谎,这带来了更好的表现。但当然,CICERO 并不总是完全诚实地表达其所有意图。而且重要的是,它理解其他玩家也可能具有欺骗性。“欺骗存在于一个范围内,我们正在过滤掉最极端的欺骗形式,因为那没有帮助,”Brown 说。“但在某些情况下,机器人会策略性地省略信息。” 

例如,如果它计划攻击某人,它会在交流中省略其攻击计划的部分。如果它与盟友合作,它可能只会沟通必要的信息,因为暴露过多的目标可能会使其容易被背叛。 

“我们考虑到玩家的行为不像机器,他们可能会做出非理性的行为,也可能做出次优的行为。如果你想让 AI 在现实世界中行动,就必须让他们明白人类的行为方式是人类式的,而不是机器人式的,”Brown 说。“拥有一个能够从其他角度看待事物并理解他人观点的代理人,是未来人机交互中一项非常重要的技能。” 

Brown 指出,该机器人的底层技术“相当通用”,他可以想象其他工程师在此研究的基础上进行构建,从而开发出更有用的个人助理和聊天机器人。 

 

更多优惠、评测和购买指南

 
Charlotte Hu Avatar

Charlotte Hu

助理科技编辑

Charlotte 是《趣味科学》的助理科技编辑。她对了解我们与技术的关系如何变化以及我们如何在网上生活感兴趣。


© .