人类青少年在国际数学竞赛中击败人工智能

人工智能模型首次在世界顶级的数学竞赛之一——国际数学奥林匹克竞赛（IMO）中获得了享有盛誉的金牌。这对这项技术最大的支持者来说无疑是值得夸耀的成就。但就目前而言，谷歌和OpenAI最尖端、实验性的人工智能程序仍然无法击败极其聪明的青少年。

这似乎有些讽刺，但复杂的数学仍然是人工智能最大的障碍之一。关于为什么这仍然是一个问题，有很多分析，但总的来说，这与该技术的工作原理有关。在收到提示后，像ChatGPT和Google Gemini这样的人工智能会将文字和字母分解成“token”，然后解析并预测一个合适的响应。对人工智能来说，答案仅仅是最有可能的token串。然而，人类将其处理为单词、句子和完整的想法。

鉴于这些限制，人工智能不具备处理复杂数学提示所需的“逻辑”能力。这很大程度上是因为数学提示通常没有多个可能的答案——只有一个正确答案。今天，一个计算器会毫不犹豫地给出4596乘以4859（22,331,964）的客观正确答案。而ChatGPT可能会给你一个22,325,364的答案。

Screenshot of ChatGPT giving the wrong answer to a multiplication problem — *ChatGPT在基础乘法方面仍然存在一些问题。图片来源：流行科学*

重大进步

自1959年以来，国际数学奥林匹克竞赛（IMO）一直是世界各地年轻的——人类——数学天才的首要赛事之一。许多数学家需要比规定时间更长才能回答IMO的一个问题——而且大多数人根本无法解决其中任何一个。

最近，澳大利亚在昆士兰州主办了第66届年度IMO竞赛，112个国家的641名青少年于7月15日齐聚一堂，在4.5小时内解决六个问题。然而，这次他们还面临一些额外的竞争者：来自谷歌和OpenAI的一对实验性人工智能推理模型。

这些机器人表现不错。两家公司此后都宣布，它们的人工智能程序在今年的IMO考试中得分足够高，获得了金牌。每款人工智能都在规定时间内解决了6个问题中的5个，获得了满分42分的35分。今年，只有大约10%的人类参赛者获得了金牌。

这标志着谷歌上一次参加IMO以来的重大进步。2024年，其DeepMind推理人工智能的一个版本在解决六个问题中的四个后达到了银牌水平，但它需要2-3天的计算时间，而不是4.5小时的时限。据IMO主席Gregor Dolinar称，今年结果中最令人瞩目的点之一不仅仅是人工智能程序的计算能力，还有它们解释其“思考”过程以得出每个答案的方式。

Dolinar通过谷歌的公告表示：“它们的解决方案在许多方面都令人惊叹。IMO的评分员认为它们清晰、准确，而且大多数都易于理解。”

重大担忧

这两家公司还有至少一个IMO的里程碑目标：满分。今年，有五名青少年取得了这一成就。即使谷歌或OpenAI在未来的IMO比赛中与人类持平，这一胜利也可能需要背景信息。正如法新社（AFP）指出的，IMO组织者无法确认两款人工智能模型所需的计算能力，或者在计算过程中是否有任何额外的人类监督。

而尽管人工智能的最新技术飞跃令人印象深刻，但它很可能仍然需要惊人的巨大能量和水资源。谷歌、OpenAI和微软等公司都在大力投资数据中心项目来支持他们的人工智能项目——所有这些都需要能源。在某些情况下，这甚至可能包括扩大化石燃料的使用。监管机构此前估计，按照目前的速度，人工智能行业可能会消耗与阿根廷相当的能源，甚至可能消耗数个国家加起来的能源。这是一个人工智能及其制造商都尚未解决的问题。