GPT-3 在参加 SAT 考试方面表现相当不错

它的分数优于普通大学生申请者,但可能不够全面,无法被录取。
multiple choice scantron with pencil
语言模型在标准化考试方面表现出色。Nguyen Dang Hoang Nhu / Unsplash

像 GPT-3 这样的大型语言模型赋予了聊天机器人一种非凡的能力,能够对我们探究性的问题给出类人化的回答。但它们到底有多聪明呢?加州大学洛杉矶分校心理学家本周在《nature human behavior》杂志上发表的一项新研究发现,语言模型 GPT-3 的推理能力优于普通大学生——这可能是一个较低的标准。

研究发现,在回答 SAT 等标准化考试中的一系列问题时,GPT-3 的表现优于 40 名加州大学洛杉矶分校的本科生。SAT 考试要求运用熟悉问题的解决方案来解决新问题。

根据一份新闻稿,“这些问题要求用户选择具有相同类型关系的词对。(例如,在问题:‘爱’之于‘恨’,如同‘富’之于哪个词?答案是‘穷’)”。另一组类比题是根据一篇短篇小说的段落生成的,问题与故事中的信息有关。新闻稿指出:“这种被称为类比推理的过程,长期以来一直被认为是人类独有的能力。”

事实上,GPT-3 的分数优于大学申请者的平均 SAT 分数。在逻辑推理方面,GPT-3 的表现也与人类受试者相当,它通过一套名为瑞文推理测验(Raven’s Progressive Matrices)的问题进行测试。

GPT-3 在 SAT 考试中表现出色并不令人意外。之前的研究曾通过让该模型参加一系列标准化考试(如 AP 考试、LSAT 考试,甚至MCAT 考试)来测试其逻辑能力,它都以优异的成绩通过了。该语言模型的最新版本GPT-4,增加了处理图像的能力,表现更佳。去年,谷歌研究人员发现,他们可以通过“思维链提示”(chain-of-thought prompting)来提高这类语言模型的逻辑推理能力,即将复杂问题分解成更小的步骤。

[相关:研究表明 ChatGPT 的准确性有所下降]

尽管当今的人工智能正在从根本上挑战计算机科学家重新思考诸如图灵测试等基础的机器智能基准,但这些模型远非完美。

例如,本周由加州大学河滨分校的团队发表的一项研究发现,来自谷歌和 OpenAI 的语言模型在回答患者查询时提供的医疗信息并不准确。斯坦福大学和伯克利大学的科学家们今年早些时候进行的进一步研究发现,ChatGPT 在被要求生成代码或解决数学问题时,其答案变得越来越草率,原因不明。在普通大众看来,虽然 ChatGPT 有趣且流行,但对于日常使用来说并不实用。

而且,它在视觉谜题和理解物理世界及空间方面仍然表现不佳。为此,谷歌正在尝试将多模态语言模型与机器人结合起来解决这个问题。

很难判断这些模型是否在像我们一样思考——它们的认知过程是否与我们相似。话虽如此,一个擅长考试的人工智能并不像人类那样具有通用智能。很难说它们的极限在哪里,以及它们的潜力可能是什么。这需要对它们进行开放,并暴露其软件和训练数据——这是专家们对 OpenAI 如何严密保护其 LLM 研究提出的根本性批评

 

更多优惠、评测和购买指南

 
Charlotte Hu Avatar

Charlotte Hu

助理科技编辑

Charlotte 是《趣味科学》的助理科技编辑。她对了解我们与技术的关系如何变化以及我们如何在网上生活感兴趣。


© .