

你听说了吗?Siri,那个从你的 iPhone 中发声的虚拟角色,现在听起来不一样了。新声音是随着 Apple 最新移动操作系统 iOS 11 正式发布的。她新换的声音音调更高,更年轻。她更活泼,更亲切。最重要的是,她听起来更像真人。
她的最新声音是这样诞生的:有人大声朗读了一本书,Apple 将其录制下来。她美式英语的发音由特定的人完成,例如,英式发音也是如此。Apple 的目标是通过这些录音收集听起来自然的单词和音素,也就是构成我们单词的声音。然后,Apple 利用机器学习将这些音素拼接起来,使她的语音听起来尽可能自然。通过专注于以正确的方式组合这些词语的声音,Apple 希望创造一个能够正确强调音节的声音,这样她就不会听起来过于人工。
为了更好地理解 Siri 新声音的特质,我将她朗读美式英语的片段发送给了英属哥伦比亚大学语言学系助理教授 Molly Babel。(是的,她是一位姓 Babel 的语言学专家,拼写方式与“巴别塔”相同。)Babel 请我录制 Siri 说出特定单词——包括 pasta、pool 和 boot——以及一段在语言学中广为人知的、包含大量词语声音的段落。它以“Please call Stella.”开头。
她的反应是?Babel 说:“听到她的一些元音时,我忍不住笑了。”“她简直是教科书般的加州人。”Babel 从 Siri 发出 pool 和 boot 中的“oo”音的方式,以及她发其他元音的方式,都能分辨出来。通过语言学上类似“估算”的计算,Babel 将 Siri 的声音与一个口音档案中的相似发音者进行了比较,并证实 Siri 的声音最像加州人。
Babel 指出,更重要的是,她的声音听起来很高亢且带有气息声,这两个因素结合起来会给人一种年轻的感觉。“她听起来非常年轻,”她说,并补充说她的声音听起来最适合二十多岁的美国女性。
Babel 说,这种气息声(这是一个指声带气流量的术语)让她听起来很健康。
我问她,人们希望从从设备中发出的虚拟角色那里听到什么样的声音——那些为我们提供天气和日程信息的声音。
“我认为她被设计成乐于助人的声音,”Babel 说。“也许这是我们对年轻女性存在的一种不公平的刻板印象,说实话。”你可以在 iPhone 的设置中轻松将声音切换为男性,男声自 2013 年起就已提供。
“我们希望设备中的口音听起来熟悉,听起来有点像我们,”她补充道。“这有助于对抗被看不起的感觉。”
但这样有效吗?
Babel 反思说,归根结底,虚拟助理不仅应该拥有愉悦且易于理解的声音;它还需要清楚地理解用户。通过 iOS 11,Siri 可以口头翻译英语短语为五种不同的语言。
翻译是一个有用的功能,但虚拟助理的首要目标是知道你想要什么并给出正确的响应。如果你让 Siri 为你叫一辆 Uber,但她不理解“Uber”这个词,并提示你选择手机上的 Uber 和 Lyft 应用,那么无论她的声音听起来如何,你都会感到沮丧。(自 Apple 于 2011 年首次推出语音助手以来,Siri 的词语识别错误率已大大降低。)
这是卡内基梅隆大学系统科学家 Timo Baumann 也提出的一个观点,他研究 Siri 等语音计算机系统。他也听了她的声音。(Babel 和 Baumann都在 iOS 11 仍处于测试阶段,在其今日正式发布之前,听到了她的声音。)
Baumann 说:“在我看来,新声音比旧声音有了更多的个性。”“旧的声音更疏远。”例如,今年早些时候,当 Apple 首次公布数字助理的新声域时,他们展示了她用三种不同的语调说出“sunny”这个词——这是她试图听起来更像人类和更自然的另一个例子。
声音中的自信和个性传达了能力,这意味着当数字助理不可避免地出错时(它们都会出错),语气和表现之间的不协调可能会更加明显。
Baumann 说:“这个声音似乎真正支持它所说的内容。”“这意味着 Apple 必须确保它确实能够做到。如果你用这个声音说了一些愚蠢的话,听起来会更加愚蠢。”
而且,关于 Babel 关于 Siri 听起来像加州人的观察,你随时可以问她来自哪里。如果你问了,她可能会告诉你:“正如盒子上所说……我由 Apple 在加州设计。”