研究显示,ChatGPT 的准确性有所下降

据斯坦福大学和加州大学伯克利分校的研究人员称,该大型语言模型生成计算机代码的能力在几个月内有所下降。
Laptop screen showing ChatGPT homepage
如果不深入了解ChatGPT的内部运作,很难知道它到底有多不可靠。Deposit Photos

两项新研究为OpenAI的ChatGPT大型语言模型程序带来了令人担忧的两难境地。虽然它目前生成的文本回复已经几乎无法与人类的回答区分开来,根据多项研究和来源,但GPT的准确性似乎正在随着时间的推移而下降。更令人不安的是,没有人对这种令人担忧的衰退有一个好的解释。

斯坦福大学和加州大学伯克利分校的一个团队在本周二发布的一项研究报告中指出,ChatGPT的行为随着时间的推移发生了明显的变化——而且不是朝着好的方向。更重要的是,研究人员对于这种响应质量下降究竟是为什么发生的,有些茫然不知所措。

为了检验ChatGPT底层GPT-3.5和-4程序的稳定性,该团队测试了AI“漂移”的倾向,即提供质量和准确度不同的答案,以及其遵循给定命令的能力。研究人员要求ChatGPT-3.5和-4解决数学问题、回答敏感和危险的问题、根据提示进行视觉推理以及生成代码。

[相关:大型科技公司最新的AI末日警告可能只是同样的炒作。]

他们的审查中,该团队发现,“总体而言……‘相同’的大型语言模型服务的行为可以在相对短的时间内发生实质性变化,这凸显了持续监控大型语言模型质量的必要性。”例如,GPT-4在2023年3月能够以近98%的准确率识别质数。然而,到了6月份,GPT-4在同一任务上的准确率据报道已跌至3%以下。与此同时,与2023年3月的版本相比,GPT-3.5在2023年6月在质数识别方面有所提高。当涉及到计算机代码生成时,这两个版本在3月到6月之间生成计算机代码的能力都有所下降。

这些差异可能很快就会产生现实世界的影响。本月早些时候,纽约大学研究人员在一篇发表在《JMIR Medical Education》杂志上的论文中指出,ChatGPT对医疗相关查询的回答在语气和措辞方面与人类医疗专业人员的回答几乎无法区分。研究人员向392人展示了10个患者问题和答案,其中一半来自人类医疗保健提供者,一半来自OpenAI的大型语言模型(LLM)。参与者区分人类和聊天机器人撰写的回复的能力“有限”。与此同时,人们对AI处理医疗数据隐私的能力的担忧日益增加,以及它“幻觉”不准确信息的倾向。

学术界并非唯一注意到ChatGPT收益递减的人。正如《商业内幕》周三报道的那样,OpenAI的开发者论坛上一直在就该大型语言模型的进展——或缺乏进展——进行持续的辩论。“官方对此问题有任何回应吗?作为一个付费客户,它从一个出色的助理主厨变成了一个洗碗工。非常希望能得到官方回应,”一位用户本月早些时候写道。

[相关:AI 暂停信函存在一个明显的问题。]

OpenAI的大型语言模型研究和开发以封闭著称不接受外部审查,这一策略已经引起了行业专家和用户的强烈反对和批评。“真的很难说为什么会这样,”ChatGPT质量审查论文的合著者之一Matei Zaharia周三发推文说。Zaharia是加州大学伯克利分校的计算机科学副教授,也是Databricks的首席技术官,他继续推测,来自人类反馈的强化学习(RLHF)可能与微调一起“遇到了瓶颈”,但也承认这可能只是系统中的错误。

因此,虽然ChatGPT可能通过了基本的图灵测试基准,但其不稳定的质量仍然给公众带来了重大挑战和担忧——与此同时,几乎没有什么能阻止它们持续的扩散和融入日常生活。

 

更多优惠、评测和购买指南

 
Andrew Paul Avatar

Andrew Paul

特约撰稿人

Andrew Paul 是 Popular Science 的特约撰稿人。


© .