人工智能正努力更好地掌握手部动作

AI 难以生成逼真的人物手部图像,但“NeRF”技术有望解决这一难题。
Off-putting AI generated hands
近在咫尺,却又遥不可及。 DALLe OpenAI / 《大众科学》

AI 文本到图像生成器在极短的时间内取得了长足的、甚至可以说是令人担忧的进步,但有一个人类解剖结构它们仍然无法很好地掌握:手。今年早些时候,《BuzzFeed》采访了佛罗里达大学人工智能与艺术专业的副教授、艺术家 Amelia Winger-Bearskin,她解释说,直到现在,AI 程序在很大程度上还不确定“手”到底是什么。“在图像中,手部非常微妙,”她当时说,“它们通常在抓握着什么东西。或者有时,它们在握着另一个人。” 尽管过去几个月已经取得了一些进展,但仍有很大的改进空间。

虽然这乍听起来可能有点奇怪,但仔细看看我们肢体的复杂性,就能很快明白为什么会这样。除非能够精确地捕捉到无数的关节、各种姿势、皮肤皱纹、血管以及无数其他精确的细节,否则手部图像很容易就会滑入怪异和不准确的“恐怖谷”。更重要的是,AI 程序根本没有像人脸和全身图像那样多的大型、高质量的手部图像来学习。但随着 AI 仍在努力解决这个问题——常常产生极其令人费解、荒谬甚至令人不安的结果——中国合肥科技大学的程序员们正在着手解决一个令人惊讶的直接问题:训练一个 AI 来专门研究和改进手部生成。

[相关文章:人工智能的广阔世界入门指南。]

在最近发表的一篇研究论文中,该团队详细介绍了他们如何放弃了更常见的扩散图像生成技术,转而使用了被称为神经辐射场(NeRF)的技术。正如《New Scientist》所指出的,这种 3D 建模依赖于神经网络,并且之前已被 Google Research 和 Waymo 用于创建无缝的大规模城市景观模型。

图片来源:中国科学技术大学

论文摘要的一部分写道:“通过将手部映射和光线组合策略引入 [NeRF],我们使得自然处理交互接触以及补充手部罕见区域的几何和纹理成为可能。”并补充说,该团队的“HandNeRF”程序与单个手或两只交互的手兼容。在这个更新的过程中,首先由一个“现成的骨骼估计器”使用手部或手部的手部多视角图像来从内部参数化手部姿势。然后,研究人员通过 HandNeRF 程序使用形变场,该程序生成的手部图像在形状和表面上更逼真。

尽管 NeRF 成像难以训练,并且本身无法生成完整的文本到图像结果,《New Scientist》也解释说,可能将其与扩散技术结合可以为 AI 生成提供一条新颖的路径。但在此之前,大多数程序员仍然不得不想办法绕过 AI 对人类手部——可以说——糟糕的掌握。

 

更多优惠、评测和购买指南

 
Andrew Paul Avatar

Andrew Paul

特约撰稿人

Andrew Paul 是 Popular Science 的特约撰稿人。


© .