人工智能会失控并摧毁我们吗？

“它始于 35 亿年前的一池淤泥，当时一个分子自我复制，从而成为所有地球生命的最终祖先。它始于 400 万年前，当人类的脑容量开始迅速增长。始于 5 万年前，随着智人（Homo sapiens）的兴起。始于 1 万年前，随着文明的发明。始于 500 年前，随着印刷术的发明。始于 50 年前，随着计算机的发明。不到 30 年，它将结束。”

Jaan Tallinn 在 2007 年偶然读到了这段话，在一篇名为《凝视奇点》的在线文章中。文中的“它”指的是人类文明。该文章的作者预测，随着超智能（即在广泛领域超越人类智力的 AI）的出现，人类将不复存在。

Tallinn 是爱沙尼亚出生的计算机程序员，拥有物理学背景，并且倾向于将生活视为一个巨大的编程问题。2003 年，他与人联合创办了 Skype，并开发了该应用程序的后端。两年后 eBay 收购 Skype 时，他套现了他的股份，然后开始寻找新的事业。“凝视奇点”将计算机代码、量子物理和《卡尔文与霍布斯》的引文糅合在一起。他被深深吸引了。

Tallinn 很快发现，文章的作者、自学成才的理论家 Eliezer Yudkowsky 撰写了 1000 多篇文章和博客帖子，其中许多都致力于探讨超智能。Tallinn 编写了一个程序，从互联网上抓取 Yudkowsky 的文章，按时间顺序排列，并为他的 iPhone 格式化。然后，他花了一年多的时间阅读了这些文章。

“人工智能”（即在计算机或机器中模拟智能）一词最早出现在 1956 年，仅在第一台电子数字计算机问世十年后。该领域最初的希望很高，但到了 20 世纪 70 年代，当早期预测未能实现时，“人工智能冬天”来临。当 Tallinn 发现 Yudkowsky 的文章时，人工智能正经历着一场复兴。科学家们正在开发在特定领域表现出色的 AI，例如赢得国际象棋比赛、打扫厨房地板以及识别语音。（2007 年，IBM 的 Watson 在《危险边缘！》比赛中获胜还有四年，而 DeepMind 的 AlphaGo 在围棋比赛中获胜还有八年。）这些被称为“狭窄”的 AI 拥有超人的能力，但仅限于它们擅长的特定领域。一个下棋的 AI 无法打扫地板，也无法让你从 A 点到达 B 点。但是，Tallinn 逐渐相信，超智能 AI 将在一个实体中结合广泛的技能。更糟糕的是，它还可能利用智能手机用户生成的数据来进行社会操纵。

通过阅读 Yudkowsky 的文章，Tallinn 深信超智能可能导致人工智能的爆发或“失控”，从而威胁人类的生存——那些超智能 AI 将取代我们在进化阶梯上的位置，并像我们现在支配猿类一样支配我们。或者，更糟的是，灭绝我们。

读完所有文章后，Tallinn 发送了一封电子邮件给 Yudkowsky——他习惯用全小写字母写邮件。“我是 Jaan，Skype 的创始人工程师之一，”他写道。最终他切入正题：“我确实同意……为通用人工智能超越人类智能的事件做准备，是人类最重要的任务之一。”他想帮忙。不久之后，他飞往湾区参加其他会议，并在加州米尔布雷的一家 Panera Bread 餐厅与 Yudkowsky 会面，那里离他住的地方不远。他们的会面持续了四个小时。“他确实真正理解了基本概念和细节，”Yudkowsky 回忆道。“这非常罕见。”之后，Tallinn 向人工智能奇点研究所（Yudkowsky 曾是该非营利组织的思想家）开出了 5000 美元的支票。（该组织于 2013 年更名为机器智能研究所，简称 MIRI。）此后，Tallinn 已向该组织捐赠了超过 600,000 美元。

与 Yudkowsky 的相遇给 Tallinn 带来了使命感，促使他踏上拯救我们免受自身创造物侵害的征程。随着他在这一问题上与其他理论家和计算机科学家建立联系，他开始了环游世界、就超智能的威胁发表演讲的生活。但大多数时候，他开始资助研究可能为人类提供出路的方法：所谓的“友好型 AI”。这并不意味着机器或代理特别擅长谈论天气，或者能记住你孩子的名字——尽管超智能 AI 可能两者都能做到。这也不意味着它受利他主义或爱的驱动。一种普遍的误解是认为 AI 拥有人类的冲动和价值观。“友好”意味着更基本的东西：明天的机器在其追求目标的道路上不会消灭我们。

与 Yudkowsky 会面九年后，Tallinn 在剑桥大学耶稣学院的食堂与我共进晚餐。这个教堂般的空间装饰着彩色玻璃窗、金色的模塑和戴着假发的男人的油画。Tallinn 坐在沉重的红木桌旁，穿着硅谷的休闲服饰：黑色牛仔裤、T 恤、帆布运动鞋。高耸的木制天花板在他蓬乱的灰金色头发上方延伸。

46 岁的 Tallinn 在某些方面是一位典型的科技企业家。他认为，由于科学的进步（前提是 AI 不会毁灭我们），他将活“很多很多年”。他对超智能的担忧在他这个群体中很普遍。PayPal 联合创始人 Peter Thiel 的基金会向 MIRI 捐赠了 160 万美元，2015 年，特斯拉创始人 Elon Musk 向位于马萨诸塞州剑桥的科技安全组织“生命未来研究所”捐赠了 1000 万美元。Tallinn 进入这个精英世界，可以追溯到 20 世纪 80 年代铁幕时期，当时一位有政府工作的同学的父亲让几个聪明的孩子接触到了大型计算机。爱沙尼亚独立后，他创办了一家视频游戏公司。如今，Tallinn 仍居住在其首都——这座城市因词源学的巧合也叫 Tallinn——与他的妻子和六个孩子中的最小的一个住在一起。当他想与研究人员会面时，他经常邀请他们去波罗的海地区。

Jaan Tallinn sitting at desk — Jaan Tallinn 希望拯救人类免受其人工智能创造物的侵害。Fabian Weiss/laif/Redux

他的捐赠策略很有条理，就像他几乎所做的一切一样。他将资金分散到 11 个组织，每个组织都在研究 AI 安全的不同方法，希望其中一种方法能够奏效。2012 年，他与他人共同创办了剑桥存在风险研究中心（CSER），初期投入近 20 万美元。

存在风险——或者 Tallinn 所说的 X-risks——是对人类生存的威胁。除了 AI，CSER 的大约 20 名研究人员还研究气候变化、核战争和生物武器。但对 Tallinn 来说，其他学科主要有助于使失控人工智能的威胁合法化。“那些充其量只是入门级话题，”他告诉我。对更广泛接受的威胁（如气候变化）的担忧可能会吸引人们。他希望，超智能机器接管世界的恐怖将说服他们留下。他现在来到这里参加一个会议，是因为他希望学术界认真对待 AI 安全问题。

我们的餐友是会议参加者中的随机组合，包括一位来自香港、研究机器人学的女士，以及一位 20 世纪 60 年代毕业于剑桥的英国男士。那位年长的男士问桌上的每个人在哪里上的大学。（Tallinn 的回答，爱沙尼亚的塔尔图大学，并没有让他印象深刻。）然后他试图将话题引向新闻。Tallinn 茫然地看着他。“我对近期风险不感兴趣，”他说。

Tallinn 将话题转向超智能的威胁。当他不与程序员交谈时，他会默认使用比喻，现在他滔滔不绝地说出了他的比喻集：先进的 AI 可以像人类砍伐树木一样迅速消灭我们。超智能对我们来说，就像我们对大猩猩一样。他的头顶上方刻着一句拉丁文的诗篇 133：“弟兄们同居，是何等地善，何等地美！”但对于一个包含失控的超智能的未来，Unity 远非 Tallinn 所想。

那位年长的男士说，AI 需要一个身体才能接管。没有某种物理外壳，它怎么可能获得物理控制权？Tallinn 还有另一个比喻：“把我关在一个地下室里，只给我一个互联网连接，我就可以造成很多损害，”他说。然后他吃了一口烩饭。

无论是 Roomba 还是它的某个统治世界的后代，AI 都是由结果驱动的。程序员会分配这些目标，以及一套如何实现这些目标的规则。先进的 AI 不一定会因为追求世界统治而获得这项目标——这可能只是意外。而计算机编程的历史充满了导致灾难的小错误。例如，2010 年，一家共同基金公司 Waddell & Reed 的一名交易员出售了数千份期货合约。该公司软件算法中遗漏了一个关键变量，该变量帮助执行了交易。结果导致了价值万亿美元的美国“闪电崩盘”。

Tallinn 资助的研究人员认为，如果超人工智能的奖励结构没有被正确编程，即使是良性的目标也可能导致隐蔽的结局。牛津大学哲学家 Nick Bostrom 在他的著作《超智能》中提出的一个著名例子是，一个虚构的代理被指示尽可能多地制造回形针。该 AI 可能会决定，人类身体中的原子可以更好地用于制造回形针。

Tallinn 的观点也有不少反对者，即使在关注 AI 安全的群体中也是如此。一些人认为，在我们尚未了解超智能 AI 的情况下，现在担心限制它还为时过早。另一些人则认为，关注失控的技术行为者会分散对该领域最紧迫问题的注意力，例如大多数算法是由白人男性设计，或者基于偏向他们的有偏见的数据。“如果我们不解决这些近期挑战，我们就有可能建立一个我们不想生活的世界，”专注于 AI 安全和其他问题的多方利益相关者组织“人工智能伙伴关系”的执行董事 Terah Lyons 说。（Tallinn 支持的几个研究所是其成员。）但她补充说，研究人员面临的一些近期挑战——例如消除算法偏见——是人类在面对超智能 AI 时可能遇到的挑战的先兆。

Tallinn 不那么确定。他反驳说，超智能 AI 带来了独特的威胁。最终，他希望 AI 界能效仿 20 世纪 40 年代的反核运动。在广岛和长崎原子弹爆炸后，科学家们联合起来试图限制进一步的核试验。“曼哈顿计划的科学家本可以这样说：‘看，我们在这里进行创新，创新总是好的，所以让我们一往无前地推进吧，’”他告诉我。“但他们比这更负责任。”

Tallinn 警告说，任何 AI 安全方法都很难做到完美。他解释说，如果一个 AI 足够聪明，它可能比它的创造者更了解限制。他举了一个例子：“想象一下‘醒来时发现自己身处一群失明的 5 岁孩子建造的监狱里’。”对于被人类限制的超智能 AI 来说，可能就是这样。

理论家 Yudkowsky 发现证据可能属实，因为从 2002 年开始，他进行了聊天会话，在会话中他扮演被限制在一个盒子里的 AI，而轮换的其他人员则扮演负责将 AI 留住的看守。五分之三次，Yudkowsky——一个凡人——说他成功说服了看守释放他。然而，他的实验并没有阻止研究人员尝试设计一个更好的盒子。

Tallinn 资助的研究人员正在追求各种各样的策略，从实际的到看似遥不可及的。一些人对“盒子 AI”进行理论研究，无论是通过建造一个实际的结构来物理地限制它，还是通过编程来限制它的能力。另一些人则试图教会 AI 遵守人类价值观。少数人正在开发一种最后的“紧急停止”开关。一位深入研究这三种方法的研究员是牛津大学未来人类研究所的数学家兼哲学家 Stuart Armstrong，Tallinn 称该研究所是“宇宙中最有趣的地方”。（Tallinn 已向 FHI 捐赠了超过 310,000 美元。）Armstrong 是世界上少数全职专注于 AI 安全的研究人员之一。

一天下午，我在牛津的一家咖啡馆与他见面喝咖啡。他穿着一件领口解开的橄榄球衫，看起来像一个整日与屏幕为伴的人，苍白的脸被一头蓬乱的沙色头发衬托着。他在解释中夹杂着令人费解的流行文化梗和数学。当我问他 AI 安全取得成功可能会是什么样子时，他说：“你看了《乐高大电影》吗？一切都很棒。”

Armstrong 的一项研究侧重于一种称为“预言家”AI 的特定“盒子”方法。在 2012 年与 FHI 联合创始人 Nick Bostrom 的一篇论文中，他不仅提出了将超智能隔离在一个“储藏罐”（物理结构）中，还将其限制在回答问题，就像一个非常聪明的碟仙一样。即使有这些限制，AI 仍有巨大的力量，可以通过微妙地操纵审问者来重塑人类的命运。为了减少这种情况发生的可能性，Armstrong 建议限制对话时间，或禁止可能颠覆当前世界秩序的问题。他还建议为预言家提供人类生存的代理指标，例如道琼斯工业平均指数或东京街头的人流量，并指示它保持这些指标稳定。

最终，Armstrong 认为，有必要创建一个他称之为“大红色关闭按钮”的东西：要么是一个物理开关，要么是编程到 AI 中的一个机制，以便在出现失控情况时自动关闭自身。但设计这样一个开关远非易事。先进的、希望自我保存的 AI 不仅可以阻止按钮被按下。它还可能对人类为什么设计这个按钮感到好奇，激活它以查看会发生什么，从而使自身变得无用。2013 年，一位名叫 Tom Murphy VII 的程序员设计了一个 AI，它可以教会自己玩任天堂娱乐系统游戏。为了在《俄罗斯方块》中不输，该 AI 只是按下了暂停键——并将游戏冻结了。“真的，唯一能赢的招数就是不玩，”Murphy 在一篇关于他的作品的文章中 wryly 评论道。

The founders of Canbridge Centre for the Study of Existential Risk in black and white — 我们能否控制 AI？Huw Price、Tallinn 和 Martin Rees 创立了剑桥存在风险研究中心来找出答案。Dwayne Senior/eyevine/Redux

为了让策略成功，AI 必须对这个按钮不感兴趣，或者，正如 Tallinn 所说，“它必须给它不存在的世界和它存在的世界赋予同等的价值。”但即使研究人员能够做到这一点，还有其他挑战。如果 AI 在互联网上复制了自己几千次怎么办？

最让研究人员兴奋的方法是找到一种方法，让 AI 遵守人类价值观——不是通过编程，而是通过教 AI 去学习它们。在一个党派政治占主导的世界里，人们常常关注我们的原则不同之处。但是，Tallinn 指出，人类有很多共同点：“几乎每个人都珍视自己的右腿。我们只是不去想它。”希望是 AI 可以被教会识别出这种不变的规则。

在这个过程中，AI 需要学习和欣赏人类不那么“理性”的一面：我们经常说一套做一套，我们的一些偏好与其他偏好相冲突，以及人们在醉酒时不太可靠。但是我们都在应用程序和社交媒体上留下的数据痕迹可能会提供指导。尽管存在挑战，Tallinn 相信，我们必须尝试，因为风险太高了。“我们必须多想几步，”他说。“创造一个不分享我们利益的 AI 将是一个可怕的错误。”

在 Tallinn 离开剑桥的最后一个晚上，我与他和两位研究人员一起在一家英国牛排馆共进晚餐。一位服务员将我们带到一个白色的地下室，那里有一种洞穴般的氛围。他递给我们一份单页菜单，上面有三种不同的土豆泥。一对夫妇坐在我们旁边的桌子旁，几分钟后要求换到别处。“太幽闭了，”女士抱怨道。我想起 Tallinn 关于如果被锁在地下室里，只带着互联网连接就能造成多大损害的评论。我们在这里，在这个盒子里。就像被叫到一样，男人们在思考如何出去。

Tallinn 的客人包括前基因组学研究员 Seán Ó hÉigeartaigh，他是 CSER 的执行董事，以及哥本哈根大学的 AI 政策研究员 Matthijs Maas。他们开玩笑说一个关于极客动作片的想法，片名为《超智能对区块链！》，并讨论了一个名为《通用回形针》的在线游戏，该游戏改编自 Bostrom 书中的场景。这个游戏需要反复点击鼠标来制作回形针。它并不华丽，但它确实让人体会到为什么一台机器会寻找更快捷的方法来生产办公用品。

最终，谈话转移到更大的问题上，正如 Tallinn 在场时常发生的那样。AI 安全研究的最终目标是创造出像剑桥哲学家兼 CSER 联合创始人 Huw Price 所说的那样，“在道德和认知上都超乎人类”的机器。其他人提出了这个问题：如果我们不希望 AI 统治我们，我们是否希望统治它？换句话说，AI 是否拥有权利？Tallinn 说这是不必要的拟人化。它假设智能等于意识——这是一个让许多 AI 研究人员感到恼火的误解。当天早些时候，CSER 研究员 Jose Hernandez-Orallo 开玩笑说，在与 AI 研究人员交谈时，意识是“C 词”。（“‘自由意志’是 F 词，”他补充道。）

相关：在自动驾驶汽车中担任安全驾驶员的真实感受

现在在地下室里，Tallinn 说意识无关紧要：“以恒温器为例。没有人会说它有意识。但如果你在一个设定为零下 30 度的房间里，面对那个代理是相当不方便的。”

Ó hÉigeartaigh 插话道。“我们希望担心意识，”他说，“但如果我们还没有解决技术安全挑战，我们就没有时间去担心意识。”

Tallinn 说，人们过于关注超智能 AI 是什么。它将采取什么形式？我们应该担心一个 AI 接管，还是它们的一支军队？“从我们的角度来看，重要的是 AI 的行为，”他强调。而且，他认为，这（至少目前）仍然取决于人类。

本文最初发表在《大众科学》2018 年冬季“危险”特刊上。