

如果您希望您的 人形机器人 能够逼真地模拟 面部表情,那么关键在于时机。在过去的五年里,哥伦比亚大学 创意机械实验室 的工程师们一直在磨练他们机器人的反应速度,精确到毫秒。他们在新研究中公布的结果,该研究发表在 Science Robotics 上,现在您也可以亲眼看到了。
隆重介绍 Emo,这款机器人头部能够在 840 毫秒内预测并模仿人类的面部表情,包括微笑。但您在观看演示视频后是否还会露出笑容,还有待观察。

人工智能 在模仿人类对话方面已经做得相当不错——尤其强调“模仿”。但当涉及到视觉上近似情感时,它们的物理机器人同伴仍然有很多需要赶上。机器人在判断何时微笑方面出现失误,不仅仅是尴尬——它会暴露其人造的本质。
相比之下,人类大脑非常擅长实时解读大量的视觉线索,然后通过各种面部运动做出相应的反应。除了让教授AI驱动的机器人理解表情的细微差别变得极其困难外,还要制造一个能够进行逼真肌肉运动、又不至于进入“恐怖谷”的机械面部也很难。
[相关:在让AI扫描您的阴茎以检测性病之前,请三思。]
Emo 的创造者试图解决其中一些问题,或者至少帮助缩小人类和机器人之间表达能力差距。为了构建他们的新机器人,由人工智能和机器人专家 Hod Lipson 领导的团队首先设计了一个逼真的机器人人头,其中包含 26 个独立的致动器,以实现细微的面部表情功能。Emo 的每一个瞳孔还包含高分辨率摄像头,可以追踪对话者的眼睛——这是人类非常重要的非语言视觉线索。最后,Lipson 的团队在 Emo 的机械部件上覆盖了一层硅胶“皮肤”,使其看起来不那么……你知道的,吓人。
然后,研究人员构建了两个独立的 AI 模型协同工作——一个通过目标面部微小的表情来预测人类表情,另一个则快速发出机器人面部的运动响应。利用人类面部表情的样本视频,Emo 的 AI 逐帧学习情感的细微差别。短短几个小时内,Emo 就能观察、解读并响应人们开始微笑时 tende 出现的细微面部变化。更重要的是,它现在可以在大约 840 毫秒内做到这一点。
“我认为准确预测人类面部表情是 [人机交互] 的一场革命,”哥伦比亚大学工程学院博士生、该研究的首席作者 Yuhang Hu 本周早些时候表示。“传统上,机器人在互动过程中并没有被设计来考虑人类的表情。现在,机器人可以将人类面部表情作为反馈进行整合。”
目前,Emo 没有任何语言解读能力,所以它只能通过分析人类的面部表情进行互动。Lipson、Hu 和他们的其他合作者希望很快将这些物理能力与类似 ChatGPT 的大型语言模型系统结合起来。如果他们能做到这一点,那么 Emo 将更接近自然的(或者说近似自然的)人类互动。当然,除了微笑、撇嘴和咧嘴笑之外,还有很多其他因素才能让人产生共鸣,而科学家们似乎正专注于这些。(“模仿诸如撅嘴或皱眉等表情应谨慎对待,因为这些可能会被误解为嘲弄或传达非预期的情绪。”)然而,将来,未来的机器人统治者可能需要知道如何处理我们的鬼脸和怒容。