名为“Emo”的机器人可以比你早840毫秒微笑

如果您希望您的人形机器人能够逼真地模拟面部表情，那么关键在于时机。在过去的五年里，哥伦比亚大学创意机械实验室的工程师们一直在磨练他们机器人的反应速度，精确到毫秒。他们在新研究中公布的结果，该研究发表在 Science Robotics 上，现在您也可以亲眼看到了。

隆重介绍 Emo，这款机器人头部能够在 840 毫秒内预测并模仿人类的面部表情，包括微笑。但您在观看演示视频后是否还会露出笑容，还有待观察。

人工智能在模仿人类对话方面已经做得相当不错——尤其强调“模仿”。但当涉及到视觉上近似情感时，它们的物理机器人同伴仍然有很多需要赶上。机器人在判断何时微笑方面出现失误，不仅仅是尴尬——它会暴露其人造的本质。

相比之下，人类大脑非常擅长实时解读大量的视觉线索，然后通过各种面部运动做出相应的反应。除了让教授AI驱动的机器人理解表情的细微差别变得极其困难外，还要制造一个能够进行逼真肌肉运动、又不至于进入“恐怖谷”的机械面部也很难。

[相关：在让AI扫描您的阴茎以检测性病之前，请三思。]

Emo 的创造者试图解决其中一些问题，或者至少帮助缩小人类和机器人之间表达能力差距。为了构建他们的新机器人，由人工智能和机器人专家 Hod Lipson 领导的团队首先设计了一个逼真的机器人人头，其中包含 26 个独立的致动器，以实现细微的面部表情功能。Emo 的每一个瞳孔还包含高分辨率摄像头，可以追踪对话者的眼睛——这是人类非常重要的非语言视觉线索。最后，Lipson 的团队在 Emo 的机械部件上覆盖了一层硅胶“皮肤”，使其看起来不那么……你知道的，吓人。

然后，研究人员构建了两个独立的 AI 模型协同工作——一个通过目标面部微小的表情来预测人类表情，另一个则快速发出机器人面部的运动响应。利用人类面部表情的样本视频，Emo 的 AI 逐帧学习情感的细微差别。短短几个小时内，Emo 就能观察、解读并响应人们开始微笑时 tende 出现的细微面部变化。更重要的是，它现在可以在大约 840 毫秒内做到这一点。

“我认为准确预测人类面部表情是 [人机交互] 的一场革命，”哥伦比亚大学工程学院博士生、该研究的首席作者 Yuhang Hu 本周早些时候表示。“传统上，机器人在互动过程中并没有被设计来考虑人类的表情。现在，机器人可以将人类面部表情作为反馈进行整合。”

目前，Emo 没有任何语言解读能力，所以它只能通过分析人类的面部表情进行互动。Lipson、Hu 和他们的其他合作者希望很快将这些物理能力与类似 ChatGPT 的大型语言模型系统结合起来。如果他们能做到这一点，那么 Emo 将更接近自然的（或者说近似自然的）人类互动。当然，除了微笑、撇嘴和咧嘴笑之外，还有很多其他因素才能让人产生共鸣，而科学家们似乎正专注于这些。（“模仿诸如撅嘴或皱眉等表情应谨慎对待，因为这些可能会被误解为嘲弄或传达非预期的情绪。”）然而，将来，未来的机器人统治者可能需要知道如何处理我们的鬼脸和怒容。