人工智能语音过滤器可以让你听起来像任何人——也可以让任何人听起来像你

Koe Recast 只是最新一款能够进行惊人语音模仿的工具……预计未来还将涌现更多。
只需 15-30 秒的语音,理论上你就可以模仿任何人的声音。Davis Sánchez 摄于 Pexels

近年来,公众对AI 深度伪造技术的关注主要集中在视觉欺骗方面。例如,能够惊人地将一个人的脸叠加到另一个人身上的视频,基于用户建议的超现实艺术生成,以及围绕所有这些能力的令人头疼的伦理问题。但另一种令人信服的数字模仿的关键方法,直到最近才得到应有的审视和讨论。

语音滤镜虽然并非新生事物,但由于 AI 的助力,近年来才开始受到更严肃的对待。不幸的是,它也带来了一系列严重的社会影响,而且与视频深度伪造行业一样,似乎监管机构对此无能为力

[相关:一家初创公司正在使用 AI 让呼叫中心听起来更“美国化”。]

Koe RecastVoice.ai 这样的新兴 AI 工具,正在迅速提高其将音频输入转换为几乎任何人声音的能力,前提是提供足够的源材料进行分析。在某些情况下,这些程序只需要 15 到 30 秒的片段就能生成令人信服的模仿。尽管 Koe Recast 仍处于私有 alpha 测试阶段,但已经有一些示例,展示了马克·扎克伯格(Mark Zuckerberg)用低沉浑厚的叙述者女性甚至高亢的动漫角色的声音说话的简短片段。

“我的目标是帮助人们以任何让他们更快乐的方式表达自己,”Koe Recast 位于德克萨斯州的开发者 Asara Near 在上周接受Ars Technica 采访时表示。Near 补充说,他打算最终发布一款桌面应用程序,能够在 Discord 和 Zoom 等平台上实时转换用户的声音。当被问及不法分子可能利用 Koe Recast 进行人身攻击和传播虚假信息时,Near 认为,“就像任何技术一样,它可能有利也有弊,但我认为绝大多数人类都是很棒的人,并将从中受益匪浅。” 

[相关:人工智能在过去十年中是如何爆炸式增长的。]

然而,批评者仍然对将如此潜在混乱的工具交给公众持怀疑态度。最近,一些外包呼叫中心的代表也开始使用 AI 软件来消除他们母语的口音,以试图听起来更“美国化”,从而缓解西方消费者的偏见。虽然该工具的开发者认为他们的发明可以防止偏见,但许多人反驳说,这只是提供了一种逃避处理根本问题的手段——即排外和种族主义。

同样,一些大型企业的员工也成为了骗子的受害者,他们利用类似的音频模仿来冒充老板,骗取资金转账和密码。“我认为,在大型企业中,越来越多的人开始看到这些(骗局),因为它们是这类事情的绝佳目标,”Protocol 的网络安全记者 Kyle Alspach 在最近的 NPR Marketplace 节目中说道。

Alspach 还指出,这类骗局仍处于萌芽阶段,但这些策略很快就会变得更加普遍,而且不幸的是,更难区分事实与虚构。因此,不幸的是,AI 驱动的视觉和音频模仿的快速升级是无法阻止的。

 

更多优惠、评测和购买指南

 
Andrew Paul Avatar

Andrew Paul

特约撰稿人

Andrew Paul 是 Popular Science 的特约撰稿人。


© .