

美国手语 (ASL) 长期以来使那些聋哑和听力障碍的英语使用者能够进行实时对话。但当一个或多个对话者不精通该语言系统时,讨论往往会面临显著的延迟。通过将深度学习人工智能和微型声纳技术相结合,康奈尔大学的研究人员正在开发一种新的可穿戴设备,以帮助克服沟通障碍。通过进一步的完善,SpellRing 有朝一日可以促进完整的对话,而无需 ASL 掌握能力。
ASL 的早期版本于 18 世纪初在美国康涅狄格州哈特福德的美国聋人学校发展起来。如今,美国大约有 400,000 人使用现代 ASL,包括大量聋人父母的孩子 (CODA)。像任何语言一样,ASL 通常需要多年的教育和练习才能达到流利。鉴于大多数美国人并不经常出现在需要 ASL 的场合,因此 ASL 语言仍然主要局限于聋哑和听力障碍人群。与此同时,技术创新还没有跟上他们的步伐。

康奈尔大学信息学博士生 Hyunchul Lim 在 3 月 17 日的大学新闻稿中表示:“许多其他识别 ASL 手语拼写的技术都没有被聋哑和听力障碍社区采用,因为硬件笨重且不实用。我们试图开发一个单一的戒指来捕捉 ASL 中所有微妙而复杂的手部运动。”
Lim 和他的同事们之前通过康奈尔大学的未来交互智能计算机接口 (SciFi) 实验室进行了类似的发明,包括面部表情、虚拟现实手势和无声语音识别的解释工具。
SpellRing 在之前的迭代 Ring-a-Pose 的基础上,依赖于多种输入来分析、解释和翻译 ASL 手语拼写手势。主要组件是一个四分之一大小的 3D 打印戒指外壳,其中包含一个小型麦克风和扬声器,戴在大拇指上。当用户开始拼写时,麦克风会发出人耳听不到的声波,然后由麦克风检测到,同时一个微型陀螺仪会测量手部运动。与此同时,一台带有深度学习算法程序的计算机将产生的声纳图像实时分析并翻译成计算机屏幕上的单个字母。
研究人员在 20 名经验丰富和新手 ASL 手语使用者帮助下,通过他们拼写了 20,000 多个单词来训练 SpellRing。根据长度和难度,SpellRing 的准确率最终在 82% 到 92% 之间。
该论文的合著者、信息学助理教授 Cheng Zhang 表示:“开发工具的技术社区与使用它们的目标社区之间总是有差距。我们已经弥合了部分差距。”
尽管取得了进步,SpellRing 的设计者知道这只是一个早期阶段。目前该可穿戴设备仅限于手语拼写。ASL 依赖于更广泛的上半身动作、面部表情和其他身体语言,并且有超过 4,000 个词汇手势。
该研究的合著者、语言学博士生 Jane Lu 表示:“手语拼写虽然细致入微且在技术上具有挑战性,但仅占 ASL 的一小部分,并不能代表 ASL 作为一种语言。在开发可与 ASL 语言相媲美的完整识别设备方面,我们还有很长的路要走,但这朝着正确的方向迈出了令人兴奋的一步。”
接下来,该团队计划扩展 SpellRing 的功能,将微型声纳系统应用于眼镜,以评估用户的面部和上半身。