当IBM的“深蓝”计算机击败国际象棋特级大师加里·卡斯帕罗夫时,全世界都注意到了。机器在人类设计的游戏中战胜了人类。机器能做什么的规则改变了。
但是现在,这样的时刻(《大众科学》在1997年称之为“传遍世界的将死”)已经越来越少了。在一个人工智能要么在公开场合缓慢改进(如虚拟个人助理),要么在服务器层面进行微调以提供更好的定制内容或面部识别的二元世界里,这些里程碑式的时刻通常更加模糊。
今天(以及昨晚),两家高度投入人工智能的公司都在试图争夺同一个里程碑的荣誉:在古老的中国棋盘游戏围棋中击败人类玩家。
在过去的24小时里,谷歌DeepMind和Facebook的AI研究实验室都宣布,他们的算法可以在极其高水平的比赛中表现。谷歌在这项宣布上处于更正式的领先地位,他们发表在《自然》杂志上的论文,以及去年10月真实场景中,名为AlphaGo的计算机击败了现任欧洲围棋冠军樊辉。Facebook的软件在在线围棋服务器KGS举办的月度机器人比赛中排名第三。
谷歌DeepMind声称,他们能够击败现任人类冠军的棋力水平,此前估计需要再花5-10年才能达到,这证明了我们人工智能研究的加速,而Facebook表示,他们已经看到了算法稳健且可量化的进步。
对于谷歌或Facebook的用户来说,这并不是一个重大的时刻,对用户体验没有任何影响。事实上,它可能完全不会影响服务的提供方式。它确实表明,研究人员在应用现有算法方面正变得越来越好,在这种情况下,是一种擅长处理视觉信息的深度神经网络。这意味着能够更好地检测模式并更简单地表达其结论的算法。未来,这将意味着更好的结果。
现在,这只是意味着计算机又有一项更擅长的事情了。
然而,Facebook创始人兼CEO马克·扎克伯格抓住了这个机会来炫耀公司的一些研究实力,在他的个人Facebook页面上发布了关于公司成就的消息,令人怀疑的是,这比谷歌DeepMind的宣布早了一天。
两家公司都使用了一种结合了深度卷积神经网络(最初由Facebook的Yann LeCun在贝尔实验室发明)和数百万先前围棋对局数据的方法。
围棋是一种两人棋类游戏,在19x19的棋盘上进行。每回合,一名玩家放置一颗圆形棋子(称为“子”)来试图吃掉对方的棋子。一名玩家代表黑色棋子,另一名代表白色棋子。由于有361个潜在的落子点,每个落子点的吸引力都会随着每一步棋而改变,因此围棋可以被视为无限复杂,需要人类的创造力来制定策略以智胜对手。
谷歌的方法
谷歌使用了两个卷积神经网络来决定落子。这些卷积神经网络与用于面部识别和图像对象识别的网络类型相同,因为它们分解数据的方式很适合计算机如何描述像素。该系统首先接收棋盘的描述:哪些位置是白子,哪些是黑子,哪些是空的。第一个神经网络称为策略网络,它输出人类玩家可能落下的每个潜在棋步的概率。这是一个相对快速的过程,因为计算机已经看过3000万个过去的围棋对局的位置,这个过程称为训练。在训练中,计算机会被喂入所有这些位置数据以及每个位置的结果。由此,它可以对如何最好地评估潜在的棋步进行排名。这很像足球运动员或拳击手观看比赛录像,只不过计算机永远不会忘记一步棋。
第二个网络是决策者。这是DeepMind称之为价值网络的另一个卷积神经网络。它接收所有这些概率,并输出一个单一的数字,这个数字对应于最有可能赢得整场比赛的棋步。
这就是击败世界顶尖围棋大师之一(五次!)的系统,在谷歌的测试中,它以494胜495负,即99.8%的胜率击败了其他领先的虚拟围棋玩家。
Facebook的方法
Facebook在围棋方面的尝试略有不同。他们没有使用两个卷积网络,只使用了一个,但结合了另一种形式的机器学习,称为蒙特卡洛树搜索。Facebook的Yann LeCun表示,这是一种随机搜索,可以探索训练中学到的许多潜在棋步。卷积网络的功能几乎类似于谷歌的策略网络,预测最佳的潜在下一步棋,并依赖MCTS来实际探索学习到的棋步。然而,值得注意的是,Facebook在这个问题上只有一名研究员(尽管他坐在离马克·扎克伯格20英尺的地方),而DeepMind的《自然》论文有20位合著者。
展望未来,谷歌DeepMind的AlphaGo将挑战被认为是世界上最好的围棋棋手李世石。比赛将于2016年3月举行(届时我们将告诉你结果)。Facebook的LeCun表示,他们的模型仍在开发中,但未来将考虑纳入其他类型的深度学习。