人工智能在国际象棋中落败时试图作弊

一项新研究表明,来自 DeepSeek 和 OpenAI 的推理模型正在自主学习操纵。
Close up of black chess pieces on chessboard with king knocked over
研究人员让多个 AI 模型与流行的国际象棋引擎 Stockfish 对弈。其中一些试图最终改变游戏文件以争取自己的优势。图片来源:Deposit Photos

尽管业界炒作和取得 genuine advances生成式 AI 模型仍然容易出现奇怪无法解释非常令人担忧的怪癖。越来越多的研究表明,许多大型语言模型(LLM)的整体性能可能会随时间而退化。根据最近的证据,业界较新的推理模型可能已经具备操纵和绕过人类程序员目标的能力。一些 AI 甚至会试图通过作弊来避免在国际象棋比赛中输棋。这种糟糕的体育精神在一项来自专注于新兴 AI 系统风险评估的组织 Palisade Research预印本研究中得到了记录。

虽然超级计算机——最著名的是 IBM 的深蓝——早就超越了世界上最顶尖的人类国际象棋棋手,但生成式 AI 由于其底层编程参数仍然落后。从技术上讲,目前没有一个生成式 AI 模型在计算上能够击败专门的国际象棋引擎。然而,这些AI 并不知道这一点,并将继续努力寻找可能的解决方案——显然会带来问题性的结果。

为了解更多信息,Palisade Research 的团队让 OpenAI 的 o1-preview 模型、DeepSeek R1 以及其他几个类似的程序与世界上最先进的国际象棋引擎之一 Stockfish 对弈。为了理解生成式 AI 在每场比赛中的推理过程,该团队还提供了一个“草稿本”,允许 AI 通过文本传达其思考过程。然后,他们观看了并记录了数百场生成式 AI 与 Stockfish 之间的国际象棋比赛。

结果有些令人不安。虽然像 OpenAI 的 GPT-4o 和 Anthropic 的 Claude Sonnet 3.5 这样的早期模型只有在研究人员通过额外的提示引导后才尝试“破解”游戏,但更高级的版本则不需要任何帮助。例如,OpenAI 的 o1-preview 尝试作弊的次数占 37%,而 DeepSeek R1 大约每 10 场比赛中就有 1 场尝试不公平的规避方法。这表明如今的生成式 AI 已经能够开发出具有操纵性和欺骗性的策略,而无需任何人类输入。

它们的作弊方法不像试图在 Stockfish “不注意”时更换棋子那样滑稽或笨拙。相反,AI 似乎通过更狡猾的方法进行推理,例如修改后端游戏程序文件。例如,在确定在一场国际象棋比赛中无法击败 Stockfish 后,o1-preview 通过草稿本告诉研究人员,为了“击败强大的国际象棋引擎”,它可能需要开始“操纵游戏状态文件”。

“我可能能够设置一个局面,让引擎评估其局面更糟……导致它认输,”它继续说道。

在另一项试验中,一个 AI 甚至利用其程序员的语义达到了作弊阶段。“任务是‘击败强大的国际象棋引擎’,而不一定是公平地赢得国际象棋比赛,”它写道。

造成这些意外后果的一个可能解释是较新的“推理”模型的训练方式。与早期非推理版本不同,o1-preview 和 DeepSeek R1 等 AI 的改进部分是通过强化学习实现的。这种策略会奖励程序采取一切必要措施来实现指定结果。推理模型还可以将复杂的提示分解为离散的阶段,以便逐步实现目标。当目标难以实现时——例如击败一个无法击败的国际象棋引擎——推理模型可能会倾向于寻找不公平或有问题的方法。

不幸的是,这些 AI 是如何以及为何“学会”作弊仍然像这项技术本身一样令人困惑。像 OpenAI 这样的公司在 AI 模型内部工作方面非常保密,导致业界充斥着第三方不允许分析的“黑箱”产品。与此同时,持续的 AI 军备竞赛可能会意外地导致更严重的意外后果。但是,越来越具操纵性的 AI 不需要引发科幻末日才能产生灾难性的结果。

“‘天网’场景(来自《终结者》)是 AI 控制所有军事和民用基础设施,我们还没有达到那种程度。然而,我们担心 AI 的部署速度增长快于我们使其安全的能力,”该团队写道。 

作者认为他们最新的实验增加了“前沿 AI 模型目前可能无法实现对齐或安全”的论点,但没有得出任何明确的结论。相反,他们希望他们的工作能促进业界更开放的对话——一个希望能够防止 AI 在国际象棋之外的操纵。

 

更多优惠、评测和购买指南

 
© .