

如果您本周末观看超级碗,欣赏足球、音乐和广告,您会看到一个自作聪明的 Alexa(亚马逊的语音助手)广告。当广告中的名人或演员说出“Alexa”这个词时,它不应该触发您家中的任何 Echo 设备。原因如下。
像亚马逊 Echo Dot、Google Home 扬声器和 Apple HomePod 这样的设备会监听唤醒词——“Alexa”、“Hey Google”或“Hey Siri”。理想情况下,它们只应该在听到家中某个真正想使用语音助手执行某些操作(例如查询天气)的人说出这些词语或短语时才被唤醒。系统需要避免误报。
对于亚马逊来说,为了应对超级碗广告(以及电视上其他有人说“Alexa”的时刻),该公司采用了一种称为“声纹识别”的策略来尝试防止您的设备被唤醒。对于公司制作的广告,可以提前创建声纹并对 Alexa 系统进行编程以忽略这些实例。“当我们在提前获得音频样本时——就像超级碗广告一样——我们会对整个样本进行声纹识别并存储结果,”亚马逊机器学习科学家 Mike Rodehorst 在一篇博文中说道。然后,亚马逊可以将这些信息以及来自其他广告的声纹信息存储在 Echo 设备本身上,而不是存储在云端,这样您的设备就很有可能根本不会被唤醒。
卡内基梅隆大学(Carnegie Mellon University)研究教授、语音处理领域的专家 Alex Rudnicky 表示,总的来说,声纹是“一个连接的序列”。他说:“声音是随时间发展的,”这一点是构成声音身份的关键方面。想想一个人慢慢地说出“Alexa”这个词,以及他们在说这个词时声音的变化。因此,声纹是一个相互重叠的切片序列,他表示,这些切片可以每 10 毫秒开始一次。(亚马逊在其博文的第四段中对其方法有更技术性的解释。)
亚马逊的 Rodehorst 表示,当他们在云端处理像这样的信息,处理他们知道的广告,并试图避免误报时,他们还可以使用“唤醒词后面的音频”,这意味着他们有更多的数据可供处理。
指示亚马逊设备忽略公司自己制作的广告中的特定声纹,可能比处理电视上某个角色以一种自然、意想不到的方式使用“Alexa”这个词要简单得多。
在这些情况下,在云端,公司可以利用这样一个事实:许多设备会同时听到同一个“Alexa”的声音。例如,在 1 月下旬,史蒂芬·科尔伯特在一段“午夜告解”的节目中说道:“Alexa,买 20 卷 Bounty 纸巾,隔夜送达!”在这种情况下,“Alexa”同时唤醒多个设备有助于公司(希望)意识到正在发生的事情,并阻止 Alexa 实际订购这些纸巾。它可以存储这些信息,以防止 Echo 设备在以后重播同一段节目时被唤醒;我尝试大声播放科尔伯特的同一段节目,我的 Echo Dot 在听到唤醒词时短暂地被唤醒,然后关闭了。
亚马逊还表示,它可以采取其他策略来避免电视上的“Alexa”唤醒您的设备。例如,由于电视不会在房间里移动,而您可能会移动,因此它可以考虑音频到达设备上不同麦克风的时间。“声音当然会比到达较远麦克风更早到达较近的麦克风,因此到达时间差表明了声源的距离和方向,”去年另一篇博文中,两位其他亚马逊科学家写道。
卡内基梅隆大学的 Rudnicky 评论说,亚马逊“正在弄清楚如何不搞砸,我喜欢这一点。”
亚马逊并不是唯一一家制造语音助手的公司,其语音助手可能会被电视或电脑上的媒体欺骗;然而,苹果和谷歌均未就他们应对此问题的策略置评。