国际象棋通常被视为终极的智力挑战:一个 8x8 的棋盘上有 32 颗棋子,以及近乎无限的可能走法。有每秒计算数百万步的国际象棋引擎,但传统的方法是“蛮力”对局。“蛮力”是一种黑客(以及显然是计算机国际象棋模拟)的方法,意味着运行一个问题的每一种可能性,直到程序找到最佳解决方案。
但马修·赖(Matthew Lai)想让下棋的电脑变得更聪明。作为伦敦帝国理工学院硕士学位的一部分,赖训练了人工神经网络,使其能够达到国际足联(FIDE)国际大师的水平,比 97.8% 的注册棋手还要好。他称他的软件为 Giraffe。
经过 72 小时的训练,Giraffe 有 46% 的时间能够找出最佳的走法。Giraffe 选择的走法在 70% 的时间里都排在前三名。赖说,此前机器学习在国际象棋中的尝试,例如 Knightcap,需要程序员设计“模式识别器”,即单独的功能来学习像用兵保护王,或者拥有两种颜色主教的重要性。机器学习算法会观察已定义的走法,并学习它们有多强大。Giraffe 会自动发现这些模式,因此它可以学习即使是程序员也未曾考虑过的走法。
“Giraffe 的对弈强度并非源于能够看得非常远,而是源于能够准确评估棘手局面,并理解对人类来说很直观的复杂局面概念,”赖在他的论文中写道,该论文详细介绍了 Giraffe。
赖在 1.75 亿个数据点上训练了他的人工神经网络,这些神经网络通过不断测试假设解决方案的有效性来模仿人类学习。他从人类和其他计算机的游戏中提取了 500 万个初始的合法棋盘配置,然后对每个配置应用随机的合法走法,每个棋盘重复多次。学习过程涉及计算机与自身对弈,然后计算下一步是否会获胜。
在没有任何训练的情况下,Giraffe 在标准化国际象棋引擎测试中获得 15,000 分中的约 6,000 分。经过 72 小时的训练,它最高达到了 9,700 分。它学会了。
Giraffe 仅次于一个名为 Stockfish 5 的引擎,该引擎自 2008 年以来一直在创建和调整(并于 2004 年左右首次基于 Glaurung 国际象棋引擎构建)。赖写道,Giraffe 能够与“精心设计的、拥有数百个参数的巨头”匹敌,这对于它的年轻来说是惊人的,而且测试套件甚至可能低估了他的程序。
赖在他的论文中写道:“由于该测试套件很有名,因此至少有一些引擎可能已经专门针对该测试套件进行了调整。”“由于 Giraffe 通过自我对弈发现了所有评估特征,因此它很可能了解人类尚未研究过的模式,从而未包含在测试套件中。”
下一步是提高 Giraffe 的效率。赖建议使用 Giraffe 训练更小的网络可以提高速度,并使用另一个神经网络进行时间管理。