重新思考图灵测试

在6月的一次竞赛中，一个名为尤金（Eugene）的聊天机器人欺骗了一群人类评审，让他们相信它是一名乌克兰青少年。评审们称之为机器首次通过了图灵测试——这是计算机科学家艾伦·图灵（Alan Turing）在1950年提出的衡量人工智能（AI）的崇高标准。

尤金的胜利是短暂的。几天之内，AI研究人员就认为这个聊天机器人的成就是一堆预设的回复。然后，他们开始审视图灵测试本身。这个测试被构思成一种存在主义的茶话会游戏，要求人类和机器对远程审问者的提问作出回应。一个被误认为是人的计算机将证明它已经发展出了模仿我们自身思维过程的能力。

“人们很容易被欺骗，”纽约大学的计算机科学家厄尼·戴维斯（Ernie Davis）说。“我们习惯于安全地假设与我们交谈的人实际上是一个聪明人。”因此，人类裁判很可能会给计算机一个宽大处理。此外，聊天机器人常常通过显得漫不经心来掩饰其缺乏推理能力。例如，未来学家雷·库兹韦尔（Ray Kurzweil）曾问尤金：“如果我碗里有两颗弹珠，再加两颗，碗里现在有多少颗弹珠？”尤金写道：“不多。”“我不能告诉你确切的数字；我忘了。如果我没记错，你还没告诉我你住在哪里。”

“我们习惯于安全地假设与我们交谈的人实际上是一个聪明人。”

这样一来，图灵测试并没有促进具有适应性、人类水平智能的机器的发展。相反，它暴露了我们自身的愚昧，并催生了那些最重要的创新在于战术性地使用刻薄的离题话和操纵性的魅力的程序。

对AI最著名的基准进行严厉批评，正值该领域的兴趣和投资激增之时。谷歌最近以4亿美元收购了AI公司DeepMind，IBM也正向其Watson系统投资10亿美元，该系统曾是《Jeopardy!》的获胜者，现在正致力于解析脑癌的基因组。甚至已故的艾伦·图灵（Alan Turing）也将在今年秋天登上好莱坞大银幕，成为传记片《The Imitation Game》的主角。有些人可能会说，AI领域不再需要图灵测试了。我们应该让机器以其非人类的方式自行变得更聪明。

这将是一个错误。图灵测试的 genius 在于它抓住了公众的想象力并推动了创新。那么，为什么不创造一个更适合证明真正人工智能的任务的新测试呢？“也许我们不应该关注一个大障碍，而是应该尝试理解如何迈出一系列小步骤，引导我们走向有用的东西，”斯坦福大学认知科学家诺亚·古德曼（Noah Goodman）说。机器应该能够处理一系列任务，这些任务强调敏捷、即时反应的思维。它能否在第一次看到视频后进行描述，对直接问题给出直接答案，并识别语言的细微差别？这样的系统 far more than 是一时兴起，它将最终按照图灵的话，“证明一个会思考的机器。”尤金离这还差得很远。

本文最初发表于《Popular Science》2014年10月刊。