麻省理工学院的学生们创造了一个名为 AlterEgo 的原型设备,该设备可以识别你无声自语时嘴唇的运动——然后根据它认为你正在说的话采取行动。
Arnav Kapur,麻省理工学院媒体实验室(一个专注于人与技术交叉领域的研究部门)的一名硕士生,也是这篇论文的作者,他强调该设备不会读取思想或偶然飘过脑海的随机词语。“你完全是沉默的,但却在和自己说话,”他说。“它既不是在思考,也不是在说话。它处于两者之间的甜蜜点,是自主的,也是私密的。我们捕捉的就是这一点。”
目前的原型系统看起来就像一位电话推销员可能戴的白色头戴式耳机。但它不像有麦克风悬在嘴唇前面,而是贴在脸部和颈部,几个电极在那里可以捕捉到当你无声自语时产生的微小肌肉运动所生成的微弱电信号。该设备通过蓝牙连接到一台计算机,然后计算机与服务器通信,服务器会解读这些信号,以确定佩戴者正在清晰地说出哪些词语。
尽管它还处于原型阶段,但它代表了对常规的令人着迷的突破。我们最常与设备互动的方式是触摸它们——在智能手机上打字,按压应用,或者双击苹果 AirPods 的侧面来暂停或播放音乐。或者,我们通过与 Siri、Alexa 或 Google Assistant 等数字助手互动来与我们的设备或智能音箱对话。这些服务比无声自语需要你付出更多。换句话说:这种技术就像拥有一个更简化的 Siri 版本来倾听你无声的低语。
这一切的目标是什么?Kapur 说,是为了进一步“结合人类和计算机”。我们与计算机的互动越紧密,就越能利用它们的优势——比如快速获得数学问题或翻译的帮助——而无需从工作中抬起头来点击、轻触或输入。
或者用户也可以在完全沉默的情况下切换 Roku 频道——那些遥控器太小了,很容易丢失!——AlterEgo 对残疾人或瘫痪者似乎也很有前景。但 Kapur 说他们还没有能够研究过这种应用。
可以肯定的是,这项技术仍处于早期阶段,所以每个应用只能学习大约 20 个不同的单词。该系统无法理解一个人说的每一个词——只能理解它被教会的词。Kapur 说,故意自言自语,但不发出声音,这是一种很容易学会的练习。在训练某人使用它时,他们会先让他们大声朗读一段文字。“在那之后,我们要求他们在阅读时‘不要发出声音’,”他说。“这比大声说话更舒服。”
为了构建这个系统,Kapur 使用了一种称为神经网络的常用人工智能工具,它可以从数据输入中学习。他们训练神经网络来识别不同的电信号如何对应一个人可以对自己说的不同单词。
虽然很容易看到这种设备的军事应用——佐治亚理工学院计算学院的教授 Thad Starner 在MIT 网站上的一份声明中说,他可以设想“特种部队”使用这种设备——但 Kapur 说这并不是他们对该系统的预期目标。
他说:“这更多的是关于我们如何弥合计算机和人类之间的差距。”理想的情况是,人们可以流畅地、实时地用人工智能系统的智能来增强自己。
下一步:研究设备的形态,使其“更隐形”。这一切都关乎无缝集成——所以理想情况下,未来的版本将不再看起来像一个粘在脸上的电话推销员的耳机。