“声纹”技术应能防止 Alexa 在亚马逊的超级碗广告期间被唤醒

如果您本周末观看超级碗，欣赏足球、音乐和广告，您会看到一个自作聪明的 Alexa（亚马逊的语音助手）广告。当广告中的名人或演员说出“Alexa”这个词时，它不应该触发您家中的任何 Echo 设备。原因如下。

像亚马逊 Echo Dot、Google Home 扬声器和 Apple HomePod 这样的设备会监听唤醒词——“Alexa”、“Hey Google”或“Hey Siri”。理想情况下，它们只应该在听到家中某个真正想使用语音助手执行某些操作（例如查询天气）的人说出这些词语或短语时才被唤醒。系统需要避免误报。

对于亚马逊来说，为了应对超级碗广告（以及电视上其他有人说“Alexa”的时刻），该公司采用了一种称为“声纹识别”的策略来尝试防止您的设备被唤醒。对于公司制作的广告，可以提前创建声纹并对 Alexa 系统进行编程以忽略这些实例。“当我们在提前获得音频样本时——就像超级碗广告一样——我们会对整个样本进行声纹识别并存储结果，”亚马逊机器学习科学家 Mike Rodehorst 在一篇博文中说道。然后，亚马逊可以将这些信息以及来自其他广告的声纹信息存储在 Echo 设备本身上，而不是存储在云端，这样您的设备就很有可能根本不会被唤醒。

卡内基梅隆大学（Carnegie Mellon University）研究教授、语音处理领域的专家 Alex Rudnicky 表示，总的来说，声纹是“一个连接的序列”。他说：“声音是随时间发展的，”这一点是构成声音身份的关键方面。想想一个人慢慢地说出“Alexa”这个词，以及他们在说这个词时声音的变化。因此，声纹是一个相互重叠的切片序列，他表示，这些切片可以每 10 毫秒开始一次。（亚马逊在其博文的第四段中对其方法有更技术性的解释。）

亚马逊的 Rodehorst 表示，当他们在云端处理像这样的信息，处理他们知道的广告，并试图避免误报时，他们还可以使用“唤醒词后面的音频”，这意味着他们有更多的数据可供处理。

指示亚马逊设备忽略公司自己制作的广告中的特定声纹，可能比处理电视上某个角色以一种自然、意想不到的方式使用“Alexa”这个词要简单得多。

在这些情况下，在云端，公司可以利用这样一个事实：许多设备会同时听到同一个“Alexa”的声音。例如，在 1 月下旬，史蒂芬·科尔伯特在一段“午夜告解”的节目中说道：“Alexa，买 20 卷 Bounty 纸巾，隔夜送达！”在这种情况下，“Alexa”同时唤醒多个设备有助于公司（希望）意识到正在发生的事情，并阻止 Alexa 实际订购这些纸巾。它可以存储这些信息，以防止 Echo 设备在以后重播同一段节目时被唤醒；我尝试大声播放科尔伯特的同一段节目，我的 Echo Dot 在听到唤醒词时短暂地被唤醒，然后关闭了。

亚马逊还表示，它可以采取其他策略来避免电视上的“Alexa”唤醒您的设备。例如，由于电视不会在房间里移动，而您可能会移动，因此它可以考虑音频到达设备上不同麦克风的时间。“声音当然会比到达较远麦克风更早到达较近的麦克风，因此到达时间差表明了声源的距离和方向，”去年另一篇博文中，两位其他亚马逊科学家写道。

卡内基梅隆大学的 Rudnicky 评论说，亚马逊“正在弄清楚如何不搞砸，我喜欢这一点。”

亚马逊并不是唯一一家制造语音助手的公司，其语音助手可能会被电视或电脑上的媒体欺骗；然而，苹果和谷歌均未就他们应对此问题的策略置评。