ChatGPT 通过了图灵测试。接下来呢？

似乎每天都有关于 ChatGPT 和谷歌 Gemini 等大型语言模型 (LLM) 日新月异的能力的新闻头条，这些头条要么令人兴奋，要么越来越具有末日色彩，具体取决于你的观点。

今年早些时候，一个特别引人注目的故事是：一篇论文描述了 LLM 如何通过了图灵测试，这是计算机科学先驱艾伦·图灵在 20 世纪 50 年代设计的一项实验，旨在确定机器智能是否可以与人类智能区分开来。该 LLM 是 ChatGPT 4.5，论文发现它在欺骗人们认为它是人类方面取得了惊人的成功：在一项实验中，参与者被要求选择是聊天机器人还是真人是真实的人，近四分之三的人选择了前者。

这听起来……很重要。但究竟是怎样呢？这又意味着什么？

图灵测试是什么——以及它是什么——不是什么

要回答这个问题，我们首先需要了解图灵测试是什么，以及 LLM 通过或未能通过它意味着什么。

加州大学圣迭戈分校的博士后学生卡梅隆·琼斯，也是这篇新论文的合著者之一，解释说，图灵在他的具有里程碑意义的 1950 年论文《计算机器与智能》中提出了这个测试的概念。这篇论文旨在解决图灵的同代人心中一个宏大而基本的问题：“机器能思考吗？”

在他的论文中，图灵很快就否认了这个问题，认为它模棱两可且不够严谨，因为在这个上下文中，“机器”和“思考”的定义都不明确。他认为需要一个更细致、更容易解决的问题，并提出了：“机器能否以一种其行为无法与人类行为区分的方式行事？”为了回答这个问题，他提出了他称之为“模仿游戏”的测试，而这项练习后来被简单地称为“图灵测试”。

A formal black and white portrait of a young man, Alan Turing, with a calm expression, looking slightly to the side. He has neatly combed dark hair, is wearing a tweed suit jacket, a striped collared shirt, and a polka-dot tie. The background is a plain white or light gray. — 艾伦·图灵，这位开创性的英国数学家和计算机科学家，他的思想塑造了现代计算。*图片：公共领域*

这项测试涉及一个人——“审问者”——同时与两位隐藏的对话者交流，称为“证人”。所有交流都是书面的。这里的诀窍是，其中一位证人是真人，另一位是机器。琼斯解释说，游戏的重点是“让审问者弄清楚哪位证人是真正的人类。”

琼斯和他的团队对四种 LLM 进行了这项实验。ChatGPT 4.5 是迄今为止最成功的：73% 的参与者认为它是真人。另一个模型，名字冗长 LLaMa-3.1-405B，被认为是人类的比例为 56%。(另外两个模型——ELIZA 和 GPT-4o——的成功率分别为 23% 和 21%，将不再提及。)

ChatGPT 通过图灵测试意味着什么？

ChatGPT 4.5 和 LLaMa 的结果已经足够引人注目，但真正有趣的问题是它们的成功象征着什么。

从一开始就必须指出，这项测试并非旨在检测机器智能。在否定“机器能思考吗？”这个问题时，图灵巧妙地回避了如果答案是“是”，究竟是谁在思考这一棘手的问题。可以考虑勒内·笛卡尔的名言我思故我在（cogito, ergo sum），它本质上要求思维的存在需要意识。

然而，图灵的论文确实认为，在模仿游戏中取得成功意味着我们不能否定真正机器智能可能在起作用。正如琼斯解释的那样，图灵“基本上[认为]，如果我们能制造出一台在这场游戏中表现得如此出色，以至于我们无法可靠地区分证人的机器，那么我们基本上就必须说这台机器是智能的。”

现代读者可能会对此类评估感到反感，因此值得考察图灵的推理过程，该过程如下：

我们无法知道我们周围的人类是否聪明。我们无法进入他们的内心，也无法透过他们的眼睛去看。
尽管如此，我们还是承认他们是聪明的。
我们如何做出这个判断？图灵认为，我们是根据我们同类人类的行为来做出这个判断的。
如果我们根据行为来归因智能，并且我们遇到一种情况，即我们无法区分机器的行为与人类的行为，那么我们应该准备好得出结论，机器的行为也表明了智能。

同样，读者可能会认为这不对。确实，关键问题在于图灵的前提，即我们仅根据行为来归因智能。我们将稍后处理反驳意见，但首先，值得思考的是，我们认为哪种行为能够传达智能。

为什么图灵选择语言作为机器的测试

图灵选择语言作为他“模仿游戏”进行的依据，似乎并非偶然。毕竟，机器有很多明显的方式无法模仿人类，同样，人类也有很多方式无法模仿机器。然而，印刷文本只是一页字母。它并没有说明它是用打字机的人还是用打印机的计算机生成的。

尽管如此，语言的简单存在带来了一整套假设。自从我们的祖先开始组织句子以来，据我们所知，语言至少一直是人类的专属领域（尽管有些猿类正在接近）。

我们所拥有的智能类型也是如此——其他动物很聪明，但没有一种似乎像我们一样思考，或者拥有人类所表现出的自我意识程度。基于此，几乎不可能不将语言和智能混为一谈。反过来，这使得很难不本能地将某种程度的智能归因于任何似乎在与你交谈的事物。

这一点在长期运行的通讯《今日标签》(Today in Tabs) 的作者拉斯蒂·福斯特最近的一篇文章中得到了精彩的阐述。福斯特认为，我们倾向于将语言与智能混为一谈，因为直到现在，前者始终表明后者的存在。“根本问题是：生成式语言软件非常擅长生成长且有上下文信息的语言字符串，而人类以前从未经历过没有认知驱动的连贯语言，”福斯特写道。“在日常生活中，我们从未被要求区分‘语言’和‘思想’，因为只有思想才能产生语言。”

福斯特对“琐碎”的例子做了例外，但即使是这些例子也让我们印象深刻。例如，考虑一只鹦鹉。听到一只鸟突然用我们的语言说话，确实令人不安——但至关重要的是，几乎不可能不回话。（可以观看这个例子，一位非常澳大利亚的女士与一只非常澳大利亚的鹦鹉就家庭狗的智力优点进行争论，如果您能忍受脏话的话。）即使我们知道鹦鹉并不真正理解它们在“说什么”，语言的存在也要求以语言回应。那么 LLM 呢？它们本质上是耗能的鹦鹉吗？

琼斯说：“我认为[这]一直是批评图灵测试的主要观点之一。”“这是对智能的一种超级行为主义视角——即智能就是展示智能行为。因此，你可能需要其他条件：你可能要求机器以正确的方式产生行为，或者拥有与世界互动的正确历史。”

A light-colored cockatoo with a yellow crest stands on top of a red rotary telephone on the right side of the image. On the left, a gray African parrot stands on a dark purple surface, looking at the telephone's receiver, which is off the hook and connected to the phone by a curly red cord. The background is a solid red color. — 鹦鹉可以令人惊讶地清晰地模仿人类语言，尽管这并不意味着鹦鹉理解它在说什么。*图片：DepositPhotos*

中文房间思想实验

也有一些思想实验挑战了图灵测试关于智能表现和真正智能存在的不可区分性的假设。琼斯引用了约翰·塞尔 (John Searle) 1980 年发表的中文房间思想实验，这可能是其中最著名的。在论文中，塞尔想象自己被置于一个房间里，有人从门下递给他纸张。这些纸上有中文符号。塞尔不会说中文，但他得到了一个包含详细说明的书，教他如何绘制中文字符，以及一套关于根据收到的字符给出何种字符的指令。

对于外面的人来说，塞尔似乎说的是流利的中文，而实际上，他只是在遵循一个告诉他要画什么字符以及如何画的指令——一个程序。正如塞尔在他的论文中所解释的那样，“在我看来，在这个例子中，我完全不明白任何中文故事。我的输入和输出与以中文为母语的人无法区分，并且我可以运行任何你想要的程序，但我仍然什么都不懂。”

这个论点是对图灵测试前提的明确否定。通过这个论点，塞尔提出了理解与表现出理解，思考与表现出思考之间的关键区别。

微调 ChatGPT 以欺骗人们

这也表明了图灵测试的另一个潜在问题：中文房间显然是出于欺骗门外之人的明确目的而设计的——或者换句话说，它是一个专门为通过图灵测试而设计的程序。考虑到这一点，值得注意的是，在琼斯的实验中，通过测试的 LLM 需要进行一定程度的微调和调整才能令人信服。琼斯说，他的团队测试了大量的聊天机器人提示，其中一个关键挑战是“让[模型]不要做 ChatGPT 做的那些事情。”

琼斯和团队让 ChatGPT 不听起来像 ChatGPT 的一些方法当然很迷人，而且它们也围绕着语言的细微差别。“你希望它不要总是说完整的句子，”琼斯说。“人们在发短信时有一种随意的方式——那就是句子片段。你需要把这种东西放进去。”

此外，团队还尝试让 ChatGPT 犯拼写错误以使其听起来更像人类。琼斯说：“拼写错误实际上很难做到。如果你只是告诉一个 LLM 努力犯拼写错误，它们会在每个词上都犯错，而且错误非常不可信。我认为它们对键盘替换的理解不够好，比如你在一个单词中按错了键。”

为什么 ChatGPT 比其他 LLM 更好

LLM 是研究的困难课题——就其本质而言，它们的内部运作是根本无法理解的。即使是它们构造中可以研究的方面，也常常隐藏在保密协议和企业保密层后面。尽管如此，琼斯说，实验确实揭示了一些关于哪种 LLM 最适合模仿人类的信息：“据传 ChatGPT 4.5 是最大的模型之一，我认为拥有一个大型模型非常有帮助。”

在这种意义上，“大”是什么意思？庞大的代码库？庞大的数据集？琼斯说不是。他解释说，一个大模型拥有相对大量的内部变量，当模型吸收训练数据时，这些变量的值可以被调整。“你看到的小型精简模型通常在数学甚至相当简单的推理方面都能模仿出良好的性能。但我认为，正是这些真正的大模型往往具有良好的社交、人际交往能力。”

图灵预测了 ChatGPT 吗？

那么，图灵是否曾设想过他的测试会被实际执行？还是它更像一个思想实验？琼斯说，这个问题的答案仍然是图灵学者之间辩论的主题。就他而言，琼斯说他“只是借鉴了这篇论文本身。我认为你可以非常字面地阅读这篇论文，将其视为一个建议，即人们可以在未来的某个时候进行这项实验。”

话虽如此，琼斯还指出，“我认为很清楚，图灵并没有制定一套方法论。我的意思是，我认为他没有设想这个实验值得进行几十年。所以他没有告诉你它应该有多长，或者，你知道，是否存在任何规则以及它们可以谈论什么。”

如果图灵确实设想过这项测试可以被通过，他肯定知道这不会发生在 20 世纪 50 年代。然而，他的论文清楚地表明，他至少设想过有一天我们可能会制造出成功的机器：“我们不是在问所有数字计算机是否都能在游戏中表现出色，也不是在问目前可用的计算机是否都能表现出色，而是在问是否存在可以表现出色的可想象的计算机，”他写道。

图灵经常被——而且是正确地——称为有远见的人，但 1950 年的论文中有这样一个段落，其预见性令人惊叹。“我相信，大约 50 年后，将有可能为计算机编程……让它们玩模仿游戏，使其如此出色，以至于一个普通的审问者在五分钟的提问后，将无法有超过 [70%] 的机会做出正确的判断。”

虽然花了 75 年而不是 50 年，但我们现在面临着一台计算机——或者至少是一台由计算机驱动的模型——它确实能够 70% 的时间欺骗人们。

话说回来，人类智能的独特之处是什么？

这一切让我们回到最初的问题：这到底意味着什么？“这是一个我仍在努力解决的问题，”琼斯笑着说。

“我认为一个有用的思考方向是，图灵测试既不是智能的必要也不是充分证据——你可以想象某个东西是智能的，但它没有通过测试，因为它没有使用正确的俚语，你也可以想象某个东西通过了测试但并不智能。”

最终，他说，最重要的发现正如其名：“这是模型越来越能够很好地模仿人类行为的证据，以至于人们无法区分。”这显然带来了各种社会影响，其中许多似乎比制造 LLM 的公司更让公众和科学界感兴趣。

这里还提出了其他哲学问题。图灵在他的论文中讨论了其中几个，最值得注意的是他称之为“意识论证”。即使机器是智能的，它有意识吗？图灵以一个人与一台写十四行诗的机器之间的假想对话为例——这种对话听起来惊人地像今天你可以与 ChatGPT 进行的那种对话。这段对话提供了一个例子，说明了“可以检查出来，以发现[其作者]是否真的理解[一个主题]，还是‘鹦鹉学舌’。”