最新的XPrize,毫无疑问,是迄今为止最奇怪的XPrize。
它被称为A.I. XPrize由TED呈现,这个名字似乎说明了一切,但又并非如此。正如上周宣布的那样,这项竞赛是“一场现代图灵测试,将授予第一个能够走上舞台或通过滚动方式登台,并发表一篇引人入胜的TED演讲,足以赢得观众起立鼓掌的AI。”
然而,实际的奖金尚未确定。而公布的规则则是一个示例,说明该比赛最终可能是什么样子,这是基于公众提交的想法。
尽管如此,那一句的描述,以及示例规则,都引发了关于第一个人工智能相关XPrize有效性的疑问。一个机器演讲的TED演讲,对于推动AI的发展,究竟有什么关系?
首先,那些示例规则。正如XPrize网站所指出的,“此概念的某些元素可能会被使用,也可能不会被使用”,但细节仍然具有启发性。在提出的设想中,团队将提前获得100个讨论话题。在TED会议上,其中一个话题将被选中(随机或由观众决定),AI将有30分钟的时间准备一个3分钟的演讲。在TED演讲结束后,“观众将通过掌声投票,如果合适,还会起立鼓掌。”
过去的XPrize比赛都有完全经验性的胜利条件——第一个冲过终点线,或者在两周内两次达到亚轨道高度。在这个假设的例子中,集体的分贝水平是否会将一个巨大的掌声计推向礼堂天花板?如果两个机器人在同一个会议上都获得了起立鼓掌,会怎么样?组织者会测量每个起立鼓掌达到的速度,还是发出的欢呼声,或是产生的眼泪?
尽管这些问题听起来可能有点戏谑,但这些模糊的、类似才艺表演的机制与比赛的下一阶段,也是可能更具挑战性的阶段相关。
在观众评分的TED演讲之后,AI将不得不回答由《连线》杂志前编辑、TED会议策展人Chris Andersen提出的两个问题。一个专家小组将“加入他们的投票”。这可能是决定起立鼓掌平局的裁判。或者,也许每个专家的掌声会被放大二十倍?
可以说,AI XPrize似乎不是由AI研究人员构思出来的。示例规则暴露了一种更宽松、更侧重娱乐的XPrize方式,一种由真实研究支持的市场营销噱头。
除非,研究人员只是在作假。“我认为这项挑战的精神很酷,也很有用,”斯坦福大学的认知科学家Noah Goodman说。“但目前来看,很容易作弊。你可以找来一群艺术家和知识分子,为这100个话题中的每一个准备好脚本,然后在你知道是哪个话题时播放正确的脚本。这样,你就在完全没有使用AI的情况下解决了第一部分。”
问答环节不会那么容易作弊,但那时,起立鼓掌要么已经被授予,要么已经被拒绝。这大致相当于加冕美国小姐,然后考她地缘政治。
问答环节的要点,无论最终如何构建,都是提供一个独立的图灵测试,将经典的、直接的人工智能研究元素附加到可能显得像是机器人舞台表演的东西上。图灵测试由计算机先驱艾伦·图灵于1950年首次提出,它要求机器通过欺骗人类评委来证明其智能,通过一系列即兴的回答说服他们,它像人类一样。
然而,图灵测试更多的是科学史而不是科学,这一方法已被绝大多数AI研究人员放弃。每年,团队都在竞争Loebner Prize,奖金授予最像人类的聊天机器人。每年,除了比赛之外,没有人关心。“Loebner Prize很有趣,但在推动科学议程和吸引公众对AI的兴趣方面,它完全失败了,”Goodman说。“图灵测试作为一个思想实验,起到了极其宝贵的作用。它不是一个可行的研究目标。”
在图灵测试的所有问题中,最大的问题之一与人类有关。评委们经常被幽默感所迷惑——不是基于新信息的适应性、创造性的幽默,而是罐头笑话,在战术间隔时被释放,以避免需要构建更相关的回应。事实证明,人类是不可靠的图灵测试仲裁者。“这个XPrize也会有同样的问题。任何看过很多TED视频的人都知道,它们有一种极其引人注目且易于识别的语调和散文风格,”Goodman说。“你可以通过编程笑话和用于获得起立鼓掌的特定风格技巧来取得相当大的进展。”
就记录而言,Goodman对这个XPrize的批评不像我那么严厉——他对组织者将要提出的内容感到非常兴奋。赫特福德大学人工智能教授Kerstin Dautenhahn的看法则不那么积极。“现在和将来,主要的机器人挑战在于与世界的互动,而不是表演技巧,”Dautenhahn说,她的工作涵盖了人工智能、人机交互和社会机器人学。
对Dautenhahn来说,AI驱动的机器人的主要挑战在于它们如何与无生命和社会环境互动——例如,导航房间,以及进行对话。“我看不出XPrize中有任何这些元素,所以我不太确定这项奖金规则能获得哪些有用的技能——这里的‘有用’是指推动现实世界AI的进步,”她说。
完全有可能,一旦AI XPrize被更全面地实现,它将成为一项更有意义的研究工作,而不是一个古怪的噱头。对Goodman来说,这种转变可能很简单,就是强迫AI即兴发挥——这是人类智能的一个关键特征,也是机器持续的绊脚石。例如,忘掉那100个话题(这个框架让人联想到预先录制的演讲)。取而代之的是,系统可以在现场被给出一个随机主题,允许它从互联网上编译数据,然后进行演示。Goodman说:“这在目前是不可能的。我能想象在5年后成为可能。”
就我个人而言,我认为AI XPrize比它的规则有更大的问题,尤其是它与其赞助商的关系。Progressive Automotive XPrize并没有要求参赛队伍制造保险费低的车。AI XPrize非常倾向于TED,它在TED的地盘上进行,其成功或失败的衡量标准是与之前的TED演讲进行比较。不可否认这些会议的影响力,以及TED机器人能够获得的关注。但是,当你要求计算机科学家解决“起立鼓掌”问题时,这更像是嘉年华表演,而不是严肃的比赛。这是第一次,赢得一个XPrize可能无需赢得任何人的尊重。