全新 AI 如何掌握棘手的战略游戏

这是一个巨大且令人惊讶的结果——至少对于策略游戏界来说是如此。
stratego board game
zizou man / Wikimedia

一款名为“DeepNash”的最新人工智能已经精通了策略游戏(Stratego),这是少数几个计算机通常不会轻松击败人类玩家的标志性棋盘游戏之一根据本周发布的一篇论文。这是一个巨大且令人惊讶的结果——至少对于策略游戏界来说是如此。

策略游戏有两个截然不同的挑战:它需要长期的战略思维(类似于国际象棋),也需要玩家处理不完全信息(类似于扑克)。目标是穿越棋盘并占领对方的旗子。每局游戏都在一个 10 x 10 的网格棋盘上进行,中间有两个 2 x 2 的方形湖泊阻挡。双方各有 40 个具有不同战术价值的棋子,在游戏开始时部署——窍门在于你无法看到对手的棋子,他们也无法看到你的棋子。当你计划一次攻击时,你不知道防守者是几乎能击败你所有棋子的陆军元帅,还是一个少尉或上尉就能轻松摆脱的低级少尉。其他一些可玩棋子包括炸弹(威力强大但无法移动)、侦察兵(可以一次移动超过一个格子)和工兵(可以拆除炸弹),这些都增加了战术的复杂性。游戏只有当一方的旗子被占领或无法再进行任何合法移动时才会结束。

所有这些都表明,策略游戏为计算机带来了独特的挑战。国际象棋相对容易,因为所有信息对每个人都是可见的——在博弈论中,这被称为“完美信息博弈”。计算机可以查看你的防御,模拟几步不同的选择,然后选择最佳的。这使它们比最优秀的人类玩家也具有严重的战略优势。国际象棋往往在几个关键时刻决定胜负,而不是靠渐进的压力。平均一局国际象棋需要大约 40 步,而策略游戏需要超过 380 步。这意味着国际象棋中的每一步都更加重要(并且对于人类来说,需要更多的考虑),而策略游戏则节奏更快,更灵活。

[相关:Meta 的新人工智能可以利用欺骗来征服棋盘游戏世界]

另一方面,策略游戏是一种“不完全信息博弈”。在对手的棋子发起攻击或被攻击之前,你无法知道它是什么。在扑克游戏中,一种计算机多年来能够以高水平进行的“不完全信息博弈”,有 10^164 种可能的博弈状态,而每个玩家只有 10^3 种可能的两人起手牌。在策略游戏中,有 10^535 种可能的博弈状态和超过 10^66 种可能的部署——这意味着需要考虑更多未知信息。这还是在战略挑战之上。

结合起来,这两种挑战使得策略游戏对计算机(或人工智能研究人员)来说特别困难。据团队称,“无法使用最先进的基于模型的完美信息规划技术,也无法使用将游戏分解为独立情况的最先进的不完全信息搜索技术。”计算机必须能够制定能够纳入其可用不完全信息的战略计划。

但 DeepNash 已经成功做到了。研究人员使用一种新颖的方法,使人工智能能够自行学习策略游戏,同时发展自己的策略。它使用了一种名为正则化纳什动态(R-NaD)的模型强化学习算法,结合了一个深度神经网络架构,该架构寻求纳什均衡——“在策略游戏这类零和双人游戏中一种不可被利用的策略”——通过这样做,它可以学习到“顶尖玩家掌握的预期中的定性行为”。这种方法以前曾用于简单的囚徒困境式游戏,但从未用于像策略游戏这样复杂的游戏。

DeepNash 被测试对抗现有的最佳策略游戏机器人和人类专家玩家。它击败了所有其他机器人,并在 Gravon(一个在线棋盘游戏平台)上与人类专家玩家进行了非常有竞争力的对抗。更妙的是,从定性角度来看,它能够打好比赛。它可以在获取物质和隐藏棋子身份之间进行权衡,执行虚张声势,甚至进行有计划的冒险。(尽管研究人员也认为,“欺骗”和“虚张声势”等词可能指的是 DeepNash 无法拥有的心理状态。)

总而言之,这是一个令人兴奋的演示,展示了一种训练人工智能模型玩游戏(以及未来可能执行其他类似任务)的新方法——而且它不依赖于计算量大的深度搜索策略,这些策略以前曾用于玩国际象棋、围棋和扑克等其他游戏。

 

更多优惠、评测和购买指南

 
Harry Guinness Avatar

Harry Guinness

撰稿人

Harry Guinness 是一位爱尔兰自由作家兼摄影师。他一年中的大部分时间在爱尔兰和法国阿尔卑斯山之间度过。Harry 的作品发表在《纽约时报》、《流行科学》、OneZero、Human Parts、Lifehacker 等数十家媒体上。他撰写关于科技、文化、科学、效率以及它们碰撞的文章。


© .