

合成语音与真实语音之间的界限多年来一直在模糊。我们经常在客户服务热线中听到电脑生成的语音,或者在网上听到它们为我们朗读文章。英国公司 Sonantic 曾成功克隆了瓦尔·基尔默的声音,他在因喉癌手术后无法说话。公众首次在纪录片《瓦尔》中听到这个声音,但它也出现在今年夏天收视人数达数千万的《壮志凌云:独行侠》中。
上周三,亚马逊宣布了一项举措,将这类技术的应用范围扩大到其 Alexa 智能助手用户。该技术的一次更新将允许用户用任何人的声音替换标准语音,包括已故的亲人。该公司声称,这项尚未公布发布日期的技术,仅需一分钟的音频即可生成一个人的声音克隆。无论是认为人工智能生成的奶奶朗读《来自彼岸的睡前故事》令人毛骨悚然还是温馨,这一举措都代表着合成语音更易于获取的一大步。
就在四年前,要捕捉到一个人足够多的语音模式和语调还需要更长的时间。例如,VocalID 公司为那些因疾病无法说话的客户提供合成语音,他们需要几百句的语料数据才能准确地重现一个人的声音。大约在同一时期,一款名为 Speech Morphing 的类似产品则需要大约一小时的脚本输入。
然而,合成技术正变得越来越容易和普遍。2018 年,中国公司百度以其 Deep Voice 技术演示而成为头条新闻,该技术仅需 60 秒的音频即可合成声音。如今,Veritone 平台允许名人出售他们声音的合成版本,用于代言合作。而 Descript 公司的Overdub 功能则让播客编辑无需让主持人重返录音棚,就能修复语音错误或完全替换录音中的词语。

对于因伤病而失去说话能力的人来说,重现声音是一项强大的工具。据估计,美国约有 200 万人需要所谓的辅助性替代沟通(AAC)来帮助他们说话。导致语言障碍的原因很多——从影响运动控制的疾病,如脑瘫,到脑损伤或中风等事件——因此,更多的人可能会受益于这项技术的可及性。一项估计认为,约有 500 万美国人和 9700 万全球人口可以从 AAC 中受益。使用定制化、个性化的声音,而不是通用的“机器人声音”,可能带来变革。
然而,重要的是要认识到,语音合成并非只用于纯粹的利他目的。将公众人物或名人的声音用于深度伪造的潜力显而易见——毕竟,基尔默的声音是由 Sonantic 提供的,是通过现有片段和音频创建的。同时,我们仍在为何时以及如何使用人工智能生成的声音进行节目、品牌或导演披露制定准则。当导演摩根·内维尔在纪录片《安东尼·波登:秘辛》中,使用合成语音重现了安东尼·波登的三句台词时,引发了关于该片未能披露这些台词制作方式的强烈反对。
对于那些通过 Alexa 等平台日常与这项技术互动的人来说,更常见的风险是陷入“恐怖谷”的那种“令人毛骨悚然”的感觉。如果克隆的声音稍有偏差,人造的声音可能会让人感到非常不安。ABI Research 的分析师迈克尔·伊诺伊(Michael Inouye)专注于元宇宙等新兴互联网技术,他告诉 CNN:“肯定存在一些风险,例如,如果声音和由此产生的人工智能互动与亲人对该个体的记忆不符。”