

熟能生巧,即使你碰巧是一段人工智能。
这就是阿尔伯塔大学 Michael Bowling 领导的一项实验的前提,该实验设置了一个名为 Cepheus 的程序,让它与自己玩了十万亿(是的,十万亿)次一对一无限注德州扑克。Cepheus 运行在 4,600 个 CPU 上,每秒处理 60 亿手牌,从每一次胜利、平局和失败中学习。在实际 70 天中相当于 1,000 年的 CPU 时间里,Cepheus 玩过的扑克比全人类加起来还要多。在《科学》杂志上发表的一篇论文中,Bowling 的团队 宣布,他们通过 Cepheus 已经“解决”了一对一无限注德州扑克——这意味着该程序的决策接近完美,以至于无法判断一个理论上完美的、每天打 12 小时、连续 70 年、每小时打 200 手牌的人类玩家是否能做得更好。
之所以需要统计学家对“解决”游戏的这一有些晦涩的定义,是因为 Cepheus 在每局牌中并非真正不可战胜——这正是因为游戏中存在着不可避免的运气成分。一个狡猾的职业玩家,如果拿到一手烂牌,也可能输给一个新手。
该程序的决策已接近完美,无法判断理论上完美的玩家是否能做得更好。
“最糟糕的情况可能就是你拿到一手好牌,而对手的牌更好,”该研究的合著者 Mike Johanson 说。“你觉得自己会赢,所以下大注,然后输掉很多钱。”
但是,一旦在数千手牌中统计上的杂音消失,Cepheus 的技术就能保证它不会长期亏损。
“第一步是构建一个能够击败人类专家的程序,我们在 2008 年做到了,”Johanson 说。“我们在论文中宣布的是,Cepheus 能够几乎完美地玩游戏,不会犯错。”

在研究中使用的一对一无限注德州扑克版本中,有 2 名玩家(“一对一”)使用固定的(“无限注”)下注额进行比赛,并隐藏 2 张牌。真正新颖之处在于,Cepheus 必须学会即使在关于对手手牌的“不完全信息”下也能做出决策。尽管计算机科学家此前已经解决了像 Connect Four 或 Checkers 这样的“完全信息”游戏,在这些游戏中,计算机可以完全了解之前的走法和可能的未来结果,但阿尔伯塔大学的研究是第一个解决人类玩的非平凡不完全信息游戏的方案。
“而且 Cepheus 不必通过人类专家的帮助来学习如何玩,”Johanson 说。“我们教会了它规则,它通过与自己对抗来训练,自己摸索出了诸如慢玩和诈唬等棘手的心理战术。”
诈唬是指当一名玩家手牌很弱时,通过激进地下注来欺骗对手弃牌。慢玩则相反;当手牌很强时,玩家希望保守下注,以诱使对手留在游戏中进行额外的下注。而关于对方手牌的“不完全信息”是传统上让这些心理战术对计算机来说如此难以处理的原因。直到现在。以及那十万亿手德州扑克牌。可以说,Cepheus 已经见识了扑克玩家可能设想出的所有策略。
你可以在 网上 与 Cepheus 对战,或向它询问策略问题。
尽管扑克是一项大生意,但这个游戏对计算机科学家来说更像是作为一个基准。Johanson 预计其他领域的博弈论家将采用这种方法来处理其他信息不完全占主导地位的领域,例如谈判或反恐。
例如,南加州大学的 Milind Tambe 教授开发了一个名为 ARMOR 的博弈论工具,洛杉矶国际机场和联邦航空警察都使用该工具来安排巡逻和检查站,从而结合了随机性,但也权衡了潜在威胁。
机场安全可以被理解为一项策略游戏,就像国际象棋一样。
对 Johanson 来说,机场安全可以被理解为一项策略游戏,就像国际象棋一样。
“想象一下,就像国际象棋,只不过军队的大小不同。机场有几个棋子,代表着安保人员,也许还有搜爆犬和检查站。也许恐怖分子只有一个棋子,但一个厉害的棋子,就像皇后一样,可以自由移动并攻击机场最薄弱的地方。”
就像一对一无限注德州扑克一样,机场安全中的双方都对对手会做出什么举动拥有不完全信息。
“所以你隐藏棋盘,”Johanson 说。“你不知道恐怖分子何时会发动袭击,但你知道袭击可能即将发生。恐怖分子知道有安全措施,但不知道确切的位置。”
将像洛杉矶国际机场这样复杂庞大的机场重新构想为国际象棋棋盘,说起来容易做起来难。但希望的是,正如 Cepheus 通过数万亿轮的练习学会了诈唬和慢玩一样,未来的重复性人工智能安全模拟将揭示我们凡人从未考虑过的漏洞。