在热身赛中,IBM 的超级计算机沃森击败了《危险边缘》全明星选手

一台计算机能否在电视上最具挑战性的问答游戏中击败人类?今天,在纽约的IBM总部,我们得知答案是肯定的。
Dan Nosowitz

今天,在纽约约克敦的IBM总部,上演了一场历史性的对决。两位超级“ Jeopardy!”明星选手(Ken Jennings和Brad Rutter)与IBM的超级计算机沃森(Watson)在一场美国最具挑战性的问答游戏的预览赛中展开对决,我们亲临现场,目睹了这场激动人心的“人机大战”。

沃森,以IBM创始人命名,是一款史诗级的超级计算机。为了应对“ Jeopardy!”比赛带来的严峻挑战,IBM投入多年时间构建了一台拥有2800个Power7核心的计算机。这种强大的计算能力是绝对必要的——一台单核CPU,就像许多现代计算机一样,需要大约两小时才能给出一个标准的“ Jeopardy!”问题的答案,而沃森目前的平均响应时间只有三秒。

创建能够回答“ Jeopardy!”问题的算法,其中一个很大的挑战在于问题本身——问题中使用的语言很少是简单的,常常包含文字游戏、谜语和反讽——但还有一个额外的挑战是风险的添加。在瞬间,参赛者必须评估对问题的信心,权衡这种信心与答错的惩罚,并根据这些因素决定问题是否值得回答。这对人类来说是一种直观的努力,但沃森必须被编程以实现一些极其复杂的推理能力才能做到同样的事情。

Dan Nosowitz

沃森具有一定的自我认知能力;它知道自己不会得到所有问题的正确答案,并且必须达到一定的信心水平才会给出答案。沃森的标志会变色来表示其信心水平:“虚拟形象”中的线条如果沃森充满信心就会发出蓝光,如果不充满信心就会发出橙光。

语言的模糊性意味着问题可以被解读出各种不同的方式,因此仅仅弄清楚问题到底在问什么,就构成了沃森的大部分挑战。为此,这台计算机实际上会产生数千个可能的答案,并按正确性可能性进行排序。当我们观看快速比赛时,屏幕上显示了前三个答案以及置信度百分比,而排名第二和第三的答案通常是完全错误的。沃森不太可能将一个儿童读物的作者与另一个儿童读物的作者混淆。更有可能的是,沃森会完全误读问题本身的含义,并给出一个像“什么是儿童?”这样的答案。

在这场介绍性的比赛中,我们了解到为了适应比以往更具机械性的参赛者,节目进行了一些调整。问题直接输入沃森,所以它不需要像人类参赛者那样“阅读”问题。但沃森仍然需要像Ken Jennings和Brad Rutter一样按下物理按钮才能抢答,这几乎消除了计算机的瞬时优势。

有趣的是,沃森不会连接到互联网,所以不会有即时的维基百科搜索。(IBM的理由是:“Ken [Jennings]和Brad [Rutter]都没有连接到互联网,所以沃森也不应该连接。”)那么这个人工智能大脑的信息从何而来?IBM的工程师们,在没有互联网便利的情况下,必须手动加载沃森的所有信息,这些信息包括百科全书、同义词词典、字典、书籍、剧本以及其他人文知识的汇编。

最终的游戏将不会有音频或视频线索,尽管需要下注的问题——“每日双倍”和“最终 Jeopardy!”——将得以保留。沃森会对这些类型问题的类别进行风险分析,尽管其精确的推理意味着其下注的金额常常是一些不寻常的数字(人类可能会凭直觉下注2000美元,但沃森的风险评估可能表明下注1986美元更明智)。沃森实际上是在实时学习,在类别中——如果它不立即理解一个类别,它会等到该类别中问了一两个问题后,然后利用这些数据来找出模式。沃森还会考虑竞争情况:如果它落后,它可能会调整策略,回答那些它信心较低的问题,而不是在领先时如此。

我与IBM沃森DeepQA技术首席研究员David Ferrucci进行了交谈,了解了沃森在哪些方面会遇到困难。“对沃森来说最困难的事情,”他说,“是那些没有被写下来的东西。”一个人心中可能记着的小细节,可能引导出问答题的答案,而这些对于沃森这样的人工智能程序来说,即使拥有庞大的记忆库,也远不如它们容易获取。

人类语言的某些元素也很棘手——那些看起来可能最困难的东西(如双关语和文字游戏)会通过类别名称中的“触发”词来感觉出来,例如“听起来像”。但同义词通常是一个更大的问题。在答案“这种液体能缓冲大脑免受伤害”中,沃森必须确定“液体”在这种情况下可以与“fluid”互换,并且“缓冲”可以与“surrounds”互换。人类本能地知道问题在问什么,但沃森必须从各个角度进行分析。

在我看到的预览比赛中,这场比赛进行得非常快,沃森的表现出人意料地好。不仅仅是好;它轻松获胜,获得了4400美元,而Ken Jennings获得了3400美元,Brad Rutter获得了1200美元。没有一个参赛者,无论是人类还是机器,回答错误,但沃森似乎是抢答最快的。它最弱的类别是“儿童书籍标题”;Ken Jennings几乎包揽了这个类别,而Brad Rutter后来开玩笑说:“沃森和我都没有孩子。”

最终的比赛将采用两天的赛制,两天后总金额最高的参赛者将被加冕为胜者。冠军将获得100万美元,亚军30万美元,季军20万美元。IBM会将沃森的全部奖金捐赠给慈善机构,而Ken Jennings和Brad Rutter将捐赠他们奖金的一半。

谁将在这笔巨额奖金的争夺中脱颖而出?人类竞争者是否会因血肉之躯而增加狡猾,从而给沃森带来优势?在Trebek那种居高临下的采访环节中,沃森会拿出什么样的趣闻轶事?(Trebek说他“可能会想和他开开玩笑。”)我们必须等到2月14日才能知道答案。

Dan Nosowitz
 

更多优惠、评测和购买指南

 
丹·诺索维茨是一位自由撰稿人和编辑,曾为《大众科学》、《The Awl》、《Gizmodo》、《Fast Company》、《BuzzFeed》等媒体撰稿。他拥有麦吉尔大学本科学位,目前居住在布鲁克林,因为他留着胡子戴着眼镜,这就是法律规定。你可以在 Twitter 上关注他。

© .