近年来,人工智能模型取得了飞速发展,在许多任务上已经超越了人类,从生成基础代码到在国际象棋和围棋等游戏中占据主导地位。但尽管拥有巨大的计算能力和数十亿美元的投资者资助,这些先进模型在真正理解现实世界中人们如何互动方面,仍然无法与人类匹敌。换句话说,人工智能在“读懂现场”方面仍然存在根本性的困难。
这是约翰霍普金斯大学研究人员在一篇新论文中提出的观点。在这项研究中,研究人员让一群人类志愿者观看三秒钟的视频片段,并对视频中个体之间的互动方式进行评分。然后,他们让超过350个人工智能模型——包括图像、视频和基于语言的系统——预测人类对这些互动的评分。人类轻松完成了这项任务,而人工智能模型,无论其训练数据如何,都难以准确解读片段中的内容。研究人员表示,他们的发现表明,人工智能模型在理解现实环境中的人类社交线索方面仍然存在显著困难。这一见解可能对日益增长的、由人工智能驱动的无人驾驶汽车和机器人行业产生重大影响,因为它们本质上需要与人类一起在物理世界中导航。
约翰霍普金斯大学认知科学助理教授、论文主要作者Leyla Isik在接受《Popular Science》采访时表示:“任何时候,当你希望人工智能系统与人类互动时,你都需要了解那些人类在做什么,以及人类群体之间在做什么。”“这确实凸显了许多模型在这些任务上的不足。”
Isik将于今天在学习表示国际会议上展示研究成果。
人类观察者意见一致,而人工智能模型的看法则五花八门
尽管此前的研究表明,人工智能模型能够以与人类相当的水平准确描述静态图像中的内容,但本研究旨在检验这种情况是否仍然适用于视频。为此,Isik表示,她和她的研究同事从计算机视觉数据集中选取了数百个视频,并将每个视频剪辑成三秒钟。然后,他们将样本范围缩小到只包含两人互动的视频。人类志愿者观看了这些片段,并回答了一系列关于正在发生的事情的问题,评分范围从1到5。问题从客观提示,如“你认为这些身体是面对面的吗?”,到更主观的问题,如互动是否显得情绪积极或消极。
总的来说,人类受访者倾向于给出相似的答案,这反映在他们的评分中——这表明人们对社交互动有着基本的观察性理解。
研究人员随后向图像、视频和语言模型提出了类似类型的问题。(语言模型分析的是人类编写的字幕,而不是原始视频。)总体而言,人工智能模型未能表现出与人类参与者相同的共识水平。语言模型的表现通常优于图像和视频模型,但Isik指出,这可能部分是因为它们分析的是已经相当具有描述性的字幕。
研究人员主要评估了开放获取的模型,其中一些模型已有数年历史。该研究并未包含OpenAI和Anthropic等主要人工智能公司近期发布的最新模型。尽管如此,人类和人工智能回应之间鲜明的对比表明,模型和人类处理社交和情境信息的方式可能存在根本性的差异。
约翰霍普金斯大学博士生、论文合著者Kathy Garcia在一份声明中表示:“仅仅看到图像并识别物体和人脸是不够的。我们需要人工智能理解一个场景中正在展开的故事。理解社交互动的关系、情境和动态是下一步,而这项研究表明,人工智能模型的发展可能存在盲点。”
理解人类社交动态对于“具身人工智能”至关重要
这些发现正值科技公司竞相将人工智能整合到越来越多的物理机器人中——这一概念通常被称为“具身人工智能”。洛杉矶、凤凰城和奥斯汀等城市已成为这一新时代的试验场,这得益于越来越多的Waymo无人驾驶出租车与人类驾驶的汽车共享道路。越来越多地出现。对复杂环境的有限理解导致一些无人驾驶汽车行为异常,甚至陷入困境,原地打转。尽管一些近期研究表明,无人驾驶汽车目前可能比普通人类驾驶员更不容易发生事故,但联邦监管机构仍然已开始对Waymo和亚马逊旗下的Zoox展开调查,原因是有驾驶行为涉嫌违反安全法规。
其他公司——如Figure AI、Boston Dynamics和Tesla——则更进一步,开发旨在与人类在制造环境中协同工作的人工智能驱动的仿人机器人。Figure已经与宝马达成协议,将在南卡罗来纳州的一家工厂部署其双足模型,尽管其确切用途仍有些模糊。在这些环境中,准确理解人类社交线索和情境尤为重要,因为即使是微小的意图误判也可能导致受伤。更进一步说,一些专家甚至认为,先进的仿人机器人有一天可以协助老年人和儿童的护理。Isik表示,这项研究的结果意味着,在这一愿景成为现实之前,还有许多步骤需要完成。
Isik说:“(这项研究)确实凸显了将神经科学、认知科学和人工智能带入这些更具活力的现实世界环境的重要性。”