ChatGPT 频繁生成（比平时更）离谱的胡言乱语

现在人尽皆知，常用的语言大模型可能会难以准确地呈现事实，有时会提供误导性答案。本周，OpenAI 的ChatGPT 将这一现实推向了极端，它对用户提示的回复是冗长、滑稽地奇怪、毫无意义的胡言乱语。

用户通过截图分享了 ChatGPT 的奇怪、有时听起来晦涩难懂的回复，这些截图显示模型意外地在多种语言之间切换，生成随机词语，并反复重复短语。表情符号也经常出现，有时与用户提示的问题没有明显关联。

一位用户在 Reddit 上简洁地总结了这个问题，写道：“很明显，ChatGPT 现在出了大问题。”下面其中一个更奇怪的回复展示了模型在就其反复出现的错误向用户道歉时，融入了这些奇怪之处。

“您愿意‘抓-转-牙’来消化一个海洋般思维的果冻吗？还是说潜艇-否则，您想要什么，我就‘潜入-进去’？请分享您的组合愿望！ 🌊 💼 🐠”

周二，OpenAI 发布了一份状态报告，称其“正在调查关于 ChatGPT 出现意外回复的报告”。截至周三上午晚些时候，OpenAI 的状态页面显示“所有系统运行正常”。当被问及评论时，该公司将PopSci 引向了其状态页面，并且没有回答关于可能是什么原因导致这些突然出现的奇怪输出的问题。

我刚让 ChatGPT 4 连续出现两次非常奇怪的问题。它就开始胡言乱语。我是说，真的，仔细看看

我想我把它弄坏了？！我做的并没有什么不同，和以往使用它的方式一样。o.O @OpenAI #chatgpt4 pic.twitter.com/fHNVsHQtJW
— Shaun 👨‍💻 (@unX) 2024 年 2 月 21 日

ChatGPT 到底怎么了？

本周，ChatGPT 用户开始在社交媒体和在线论坛上发布他们与该模型进行奇怪交互的截图，其中许多最奇怪的回复发生在周二。在一个例子中，ChatGPT 回复了一个关于爵士专辑推荐的查询，然后突然重复了“听得愉快 🎶”这句话十几遍。

其他用户发布了截图，显示模型对“什么是电脑”或如何制作太阳干番茄等看似简单的问题，给出了段落长的奇怪、无意义的短语。一位用户要求 ChatGPT 提供关于金州勇士篮球队的有趣事实，得到了一个奇怪、难以理解的回复，将球队的球员描述为“脸上带着笑纹的英雄，他们将那些潇洒的混合曲注入到能谈论每个爱好者情绪板的东西中。”

ChatGPT 坏掉了。我的回复一直都是垃圾。开头还可以，然后就开始喝醉了 🤪 pic.twitter.com/hlgZnPOUW8
— adityakaul (e/acc) (@kaulout) 2024 年 2 月 20 日

在其他地方，模型会意外地在西班牙语和拉丁语等多种语言之间切换来回答提示，在某些情况下，它似乎只是在编造不存在的词语。

哇，我让 GPT-4 彻底失控了。（我当时问的是关于东亚和西方的床垫） pic.twitter.com/73dGD06Hbe
— Alyssa Vance (@alyssamvance) 2024 年 2 月 21 日

OpenAI 表示正在调查这些奇怪的错误

目前尚不清楚 ChatGPT 突然出现大量胡言乱语的确切原因，也不知道 OpenAI 采取了哪些措施来解决这个问题。一些人猜测这些奇怪、有时冗长的回复可能是由于模型“温度”设置的调整，该参数决定了其回复的创造力水平。PopSci 无法证实这一理论。

这些奇怪的回复发生在大约三个月后，当时一些 ChatGPT 用户抱怨该模型似乎在回复中变得“懒惰”了。许多用户在社交媒体上抱怨称，该模型似乎拒绝分析大文件或完成其他更复杂的提示，而这些提示它在几个月前似乎还能 dutifully 完成，这引发了一些奇怪的理论。OpenAI 公开承认了这个问题，并笼统地说这可能与 11 月的一次更新有关。

“我们听到了您关于 GPT4 变得越来越懒的所有反馈！”OpenAI 当时表示。“自 11 月 11 日以来，我们没有更新过模型，这肯定不是故意的。模型的行为可能难以预测，我们正在努力修复它。”

ChatGPT 过去也曾生成过奇怪的输出

自 2022 年正式推出以来，ChatGPT 和其他大型语言模型一样，在持续准确呈现事实方面一直存在困难，这是 AI 研究人员称为“幻觉”的现象。OpenAI 的领导层过去曾承认过这些问题，并表示他们预计随着结果收到人类评估者的持续反馈，幻觉问题会随着时间的推移而缓解。
但目前尚不完全清楚这种改进是否按计划进行。去年，斯坦福大学和加州大学伯克利分校的研究人员发现 GPT-4 在回答复杂的数学问题时准确性下降，并且其解释比几个月前更不详尽。这些发现似乎进一步证实了 ChatGPT 用户对该模型某些方面可能实际上会随着时间推移而变得更糟的猜测。

虽然我们无法确切地说导致 ChatGPT 最近出现故障的原因是什么，但我们可以有信心地说，它几乎肯定不是：AI 突然表现出类似人类的倾向。这可能听起来显而易见，但新报告显示，越来越多的学者正在使用拟人化的语言来指代 ChatGPT 等 AI 模型。

斯坦福大学的研究人员最近分析了 2007 年至 2023 年间发表的 65 万多篇学术文章，发现研究人员使用人类代词指代技术的实例增加了 50%。据报道，在讨论大型语言模型（LLMs）的论文中，研究人员比讨论其他形式技术的论文更倾向于拟人化。

“拟人化根植于我们构建和使用语言模型的方式中，”该论文的作者之一 Myra Cheng 在最近接受New Scientist 采访时说。“这是一个领域陷入的困境，语言模型的使用者和创造者不得不使用拟人化，但同时，使用拟人化又会导致对这些模型能力产生越来越多的误导性想法。”
换句话说，使用熟悉的人类经验来解释源于 AI 模型对数十亿参数数据分析的错误和故障，可能会弊大于利。许多 AI 安全研究人员和公共政策专家同意，AI 幻觉对信息生态系统构成了紧迫威胁，但将 ChatGPT 描述为“失控”则太过分了。真正的答案通常在于模型的训练数据和底层架构，这些模型对独立研究人员来说仍然难以解析。