像女人一样说谎:图灵测试的深刻而怪异的性别特定根源

到目前为止,你可能已经听说,图灵测试——这个由先驱数学家艾伦·图灵于1950年提出的、关于机器智能的古老而神圣的测试——已经通过了。在上周末举行的一场比赛中,一个冒充13岁乌克兰男孩的聊天机器人欺骗了三分之一的人类评审,让他们以为它是人类。这促使组织此次比赛的雷丁大学宣布,实现了“人工智能的里程碑式成就”。

你可能也听说了,这完全是一场骗局,在学术上相当于在图灵的坟墓上撒尿。图灵设想了一个基准,旨在响亮地回答“机器能思考吗?”这个问题,从而证明某种程度的类人认知能力。然而,开发出获胜程序“Eugene Goostman”的研究人员却使用了彻头彻尾的欺骗手段。和它之前的任何聊天机器人一样,Eugene不是通过处理问题内容并给出真正相关的答案来回应,而是回避问题。而且,它还使用了可能最卑鄙的伎俩。通过一个双重欺骗,Eugene的蹩脚英语可以通过“不是母语使用者”来解释,而它的整体愚蠢则可以被“只是个孩子”(恕我直言,13岁的孩子们)来辩解。研究人员并没有通过图灵测试,而是操纵了这个测试。他们不是第一个这样做的人——有人认为Cleverbot在2011年就通过了——但截至目前,他们是最出名的。

然而,你可能没听说的是,艾伦·图灵最初提出的测试是多么地离奇。非常类似于“恐怖谷”理论,图灵测试是一个思想的种子,它已经被扭曲和重新诠释,成为了科学的信条。雷丁大学因为声称其古怪的公关噱头是人工智能研究的突破性里程碑而应受嘲笑。但它所亵渎的测试也值得一些审视。

印第安纳大学人机交互副教授卡尔·麦克多曼(Karl MacDorman)说:“图灵从未提出过一个让电脑假装成人类的测试。“图灵提出的是一个模仿游戏,在这个游戏中,一个男人和一个电脑竞争假装成一个女人。在这个比赛中,电脑假装成一个13岁的男孩,而不是一个女人,而且它是在与自己比赛,而不是与一个男人比赛。”

麦克多曼并不是在吹毛求疵。这就在图灵1950年发表在《心灵》杂志上的具有里程碑意义的1950年论文的第二段。他首先描述了一个场景,在这个场景中,一个男人和一个女人都试图说服远程、看不见的审问者她们是女性,通过打字回复或通过中间人说话。然而,真正有趣的地方在于,当男人被替换成一台机器时。“当游戏像这样进行时,审问者会像玩男人和女人之间的游戏一样做出错误的判断吗?”图灵问道。

模仿游戏要求电脑不仅模仿一个会思考的人,而且要模仿一个特定性别的会思考的人。它绕过了创造类人机器智能所面临的巨大障碍,而是跌跌撞撞地陷入了一个数学家应该的噩梦——性别身份的无限、无法量化的泥潭。

想象中的机器需要理解它所假装来自的国家的具体社会习俗和刻板印象。它也可能需要决定它的虚假自我何时出生。毕竟,这是在1950年,就在英国女性获得普选权仅仅22年后。女权运动的余波仍在持续。那么,一台机器应该如何就这个话题表达感受,无论是作为一个特定年龄的女性,还是作为一个在那些重塑文化的斗争胜利后出生的学生?

一台电脑是否能够做到这一点似乎非常迷人,而且像是某个遥远时代的绝佳研究问题,远在人工智能的谜题解决之后。但模仿游戏是数字时代初期的练习,那时“电脑”这个词与为盟军战争出力计算数字的女性形象以及能够谈论头发的机器一样常见。

头发的事情是图灵的例子,不是我的。稍后会详细说明。

到目前为止,你可能想知道我为什么还没有谈到图灵测试,它肯定是他后来在某个出版物中提出的模仿游戏经过澄清和修正的版本。如果真是这样就好了。图灵于1954年去世时,并未将性别从他的开创性思想实验中移除。图灵测试是学术界集体给予其同名者的恩惠,是在他去世后才获得的。随着它进入流行用法,它获得了新的含义和意义,成为未来人工智能的评判标准。当一台电脑欺骗了它的人类审问者时,将是机器意识的第一次真正窥视。根据你对科幻作品的涉猎程度,这将是庆祝的原因,或者是一场战争。

在这方面,图灵测试与“恐怖谷”理论有相似之处,该理论也基于一篇非常老的论文,该论文没有提供任何实验结果,并且猜测了数十年后才可能实现的具体技术方面。在这篇1970年的论文中,机器人专家森政弘(Masahiro Mori)设想了一个图表上的曲线,随着机器越来越像人类,对机器人持有的积极情绪会稳步上升,然后突然骤降。在那个假定的类人模仿水平上,受试者会感到不安,甚至恐惧。最后,当达到某种程度的完美模仿人类的能力时,图表上的山谷就会形成,我们不仅喜欢机器人——我们会爱上它们!

过度的斜体是我试图强调的事实,即在1970年,“恐怖谷”理论是基于与实际机器人没有任何互动而提出的。它是一个思想实验。而且在很大程度上仍然是,因为我们还没有实现完美的模仿者,相关的学术实验也不依赖于机器人,而是静态图像和计算机生成的虚拟形象。此外,在森政弘悠然构思的44年里,他自己从未 bother 去测试他自己的理论。(如果这听起来过于严厉,可以阅读这篇论文,由卡尔·麦克多曼共同翻译。它令人担忧地简短而华丽。)相反,他后来写了一本关于机器人如何成为佛教徒的书。(再说一次,不要只听我说的。)

但尽管森政弘的论文缺乏证据且站不住脚,并且面对面的机器人互动产生了各种结果,过于复杂而无法遵循任何单一曲线,但“恐怖谷”理论仍被许多人视为事实。为什么不呢?听起来很有逻辑。就像图灵测试一样,它的逻辑中有一种诗意,并且它涉及到机器人。但无论它如何适用于你对《极地特快》中死鱼眼卡通形象的看法,“恐怖谷”理论对机器人领域没有任何价值。它是像垃圾食品一样的科学。

图灵测试也是一个过度简化且经常被不幸采用的概念。它最大的遗产是聊天机器人,以及那些试图——并且通常失败——来美化这些该死的东西的比赛。但“恐怖谷”理论和图灵测试的区别在于它们的愿景。正如我们所理解的,并且如上周末的事件所证明的,图灵测试是一个空洞的衡量标准。然而,图灵仍然是一位有远见的人。在他那个奇怪、粗糙、显然过度延伸的模仿游戏中,他提供了对人类和人工智能本质的深刻洞察。

谈论你的头发比听起来更聪明。

* * *

图灵为模仿游戏提出的第一个示例问题是:“X,请告诉我你头发的长度好吗?”以及一个人类男性给出的假设性答案:“我的头发是修剪过的,最长的发绺大约有九英寸长。”

思考一下那个回答中正在发生的事情。受试者正在想象(大概是)别人的头发,或者凭空创造出一个形象。他还提到了特定的发型,而不是简单地描述其背面较短。

如果一台机器能够给出类似的回答,那将意味着以下两种情况之一。

它的程序员擅长编写脚本回复,并且在检测到“头发”这个词时运气不错。不那么愤世嫉俗的、聊天机器人出现之前的可能性是,这台电脑能够访问图像,并描述其物理特征以及文化背景。

将性别作为机器智能测试的核心组成部分仍然让我感到不安,而且似乎是现代研究人员会抨击的那种旁敲侧击的包含。但图灵所追求的是能够实时处理数据,并整合多种信息的能力。除了其他方面,智能意味着理解长度和颜色等事物,但也知道什么是修剪过的头发。

模仿游戏比标准的图灵测试有更好的测试方法,因为它涉及到比较人类欺骗的能力和机器进行相同能力的能力。乍一看,这可能显得有些疯狂——如果这个测试是为了得出像我们一样思考的电脑,谁还在乎它们是否能专门假装成某个性别呢?然而,模仿游戏的绝妙之处在于它是一场比赛。它为程序员设定了一个具体的目标,而不是进行一次开放式的、类似人的计算演示。而且它要求电脑执行一项它的主要竞争对手也可能失败的任务。另一方面,图灵测试并没有将电脑与人类置于真正的竞争中。人类可能被包括进来作为对照组,但没有人期望他们在最基本的任务——成为一个人——上失败。

模仿游戏仍然可能容易受到现代聊天机器人技术的影响。正如“约会”网站上成群的调情程序所能证明的,依赖陈词滥调的刻板印象可以是一种在暂时欺骗人类方面非常成功的策略。图灵的原始提议并非完美无瑕。考虑到它的年龄以及自它写成以来人工智能的发展,它也不应被神圣化。但尽管存在问题和混乱的社会文化复杂性,我认为通过用图灵测试取代模仿游戏,我们并没有给图灵带来任何好处。比男人更擅长假装成活着的女人,无疑是人工智能一个充满风险的胜利条件。但它比简单地模仿半文盲人类回避性的聊天室习惯要更受约束的实验,并且需要更强大的机器认知能力。在最近一轮又一轮的激动人心的宣布和应得的强烈反对之后,当下一个无意识的自动回复集合通过图灵测试时,没有人应该在意。

但如果有什么东西能在模仿游戏中胜过人类呢?

光是写下这一点就让我起鸡皮疙瘩。

 

更多优惠、评测和购买指南

 
© .