AI驱动的耳机可以识别人群中的单一声音

主动降噪 (ANC) 技术已集成到各大品牌的耳机和耳塞中，让世界变得更安静。只需轻轻一按，咖啡馆的顾客和飞机上的旅客就可以调低音量，静音喧闹的背景噪音和其他令人分心的谈话声。但是，当您确实想在嘈杂的环境中听到某个人的声音时，该怎么办？目前，耳机用户必须做出选择：要么继续静音所有声音，要么关闭降噪功能来交谈。

由于华盛顿大学研究人员设计了一个新的人工智能驱动的“目标语音聆听”系统，这种在降噪和交谈之间的选择可能有一天会成为过去。在一篇发布于Association for Computer Machinery的最新论文中，研究人员声称他们定制的、概念验证型的耳机能够从人群中挑选出特定的声音，然后锁定该声音，同时消除周围的声音。耳机佩戴者只需直接注视目标说话者的脸，然后让AI系统捕获具有其独特语音特征的声音信号。最终结果是：耳机佩戴者可以在佩戴降噪技术的情况下，与某人进行持续的对话。研究人员认为，该系统有一天可以帮助部分听力损失的人，或者只是让在嘈杂环境中交谈变得不那么混乱。

华盛顿大学保罗·G·艾伦计算机科学与工程学院教授、资深作者Shyam Gollakota在一份声明中表示：“在这个项目中，我们开发人工智能来根据用户的偏好修改佩戴耳机者的听觉感知。”“借助我们的设备，即使您身处嘈杂且有许多人说话的环境中，现在也能清晰地听到某个说话者。”

经过改良的耳机如何捕捉特定人的声音

为了构建他们的系统，研究人员在市售的商用耳机上安装了麦克风和一个板载AI神经网络。在实际使用中，佩戴耳机并希望识别某个说话者的用户只需直接看向对方，同时按下设备侧面的一个按钮。该按钮会启动一个称为“注册”的过程，在此过程中，耳机捕获来自目标说话者的声音信号。该信号集中在位于左右耳机上的麦克风之间。神经网络实时分析该信号，以识别与特定个人相关的语音特征。然后，该数据被发送到另一个神经网络，该神经网络负责持续地将目标说话者的信号与其他所有声音分离开来。

整个注册过程只需要大约三到五秒钟。一旦注册并专注于目标说话者，随着系统不断接收越来越多的实时训练数据，它将随着时间的推移而得到改进。耳机佩戴者也无需尴尬地保持静止，直视对方的眼睛才能让系统工作。在短暂的初始注册过程之后，研究人员表示，AI耳机系统能够“锁定”语音信号，即使在佩戴者转过头后也能继续跟踪。这意味着，即使佩戴者不再面对说话者，他们也能听到被隔离出来的声音。 .

研究人员写道：“我们方法的优势在于，佩戴者在注册目标说话者时只需要看向目标说话者几秒钟。”“此后，佩戴者可以看向任何方向，转动头部，或四处走动，仍然能听到目标说话者的声音。”

在上面的视频中，华盛顿大学博士候选人Malek Itani演示了如何使用这款耳机锁定校园公共区域里一个同事的声音，当时那里有许多人。在看了他的同事几秒钟后，说话者略显沉闷的声音穿透了降噪的干扰，清晰可闻。这对伙伴在外面进行了另一次测试，这次是在一个嘈杂的喷泉旁，结果类似。注册完成后，耳机佩戴者转过身去，仍然能听到他的声音，即使他们四处走动。

华盛顿大学博士生、论文合著者Bandhav Veluri表示：“这款耳机系统利用AI技术提取Malek想要听到的声音，同时忽略了此后环境中的所有声音。”

目标语音聆听可能对便利性和可及性都有益

以前，像这样的系统会试图先从说话者那里捕获干净、无噪音的音频，并以此来识别说话者的特征。在这里，研究人员采用了不同的方法，选择构建一个能够即使在嘈杂环境中也能快速捕获说话者信号的系统。结果是显著的。研究人员声称，他们的系统使用不到五秒的训练数据，实现了7.01 dB的信噪比提升。从更人性化的角度来看，研究人员让21名不同的测试对象在真实世界室外和室内环境中，花费大约420分钟对使用改良耳机时的信号清晰度进行评分。与未使用该系统相比，这些测试对象在使用该系统时，对目标说话者声音质量的评分平均高出近一倍。

这个系统并不完美。目前，只有当目标说话者是房间里最响亮的声音时，注册过程才能工作。不过，研究人员乐观地认为，他们可以修改未来的系统来解决这一不足。旅行者有一天可以使用这款耳机，在嘈杂的博物馆中专注于导游，同时屏蔽背景谈话声。走在繁忙的城市街道上的朋友们也可以使用这项技术，继续进行对话，而不受可能具有干扰性的交通噪音的影响。展望未来，研究人员表示他们正在探索将这项新技术嵌入到品牌耳机和耳塞中的可能性。有一天，他们希望该系统能够作为辅助功能集成到助听器中。

Veluri说：“人工智能，特别是神经网络，在语音处理方面取得了巨大进步。”“这项应用确实令人兴奋，特别是对有听力障碍的人来说，他们希望放大想听的人的声音。”

Itani补充道：“这可能会产生重大影响，可能会影响很多人。”