AI人声滤镜将长期存在 | Popular Science

近年来，公众对AI 深度伪造技术的关注主要集中在视觉欺骗方面。例如，能够惊人地将一个人的脸叠加到另一个人身上的视频，基于用户建议的超现实艺术生成，以及围绕所有这些能力的令人头疼的伦理问题。但另一种令人信服的数字模仿的关键方法，直到最近才得到应有的审视和讨论。

语音滤镜虽然并非新生事物，但由于 AI 的助力，近年来才开始受到更严肃的对待。不幸的是，它也带来了一系列严重的社会影响，而且与视频深度伪造行业一样，似乎监管机构对此无能为力。

[相关：一家初创公司正在使用 AI 让呼叫中心听起来更“美国化”。]

像 Koe Recast 和 Voice.ai 这样的新兴 AI 工具，正在迅速提高其将音频输入转换为几乎任何人声音的能力，前提是提供足够的源材料进行分析。在某些情况下，这些程序只需要 15 到 30 秒的片段就能生成令人信服的模仿。尽管 Koe Recast 仍处于私有 alpha 测试阶段，但已经有一些示例，展示了马克·扎克伯格（Mark Zuckerberg）用低沉浑厚的叙述者、女性甚至高亢的动漫角色的声音说话的简短片段。

“我的目标是帮助人们以任何让他们更快乐的方式表达自己，”Koe Recast 位于德克萨斯州的开发者 Asara Near 在上周接受Ars Technica 采访时表示。Near 补充说，他打算最终发布一款桌面应用程序，能够在 Discord 和 Zoom 等平台上实时转换用户的声音。当被问及不法分子可能利用 Koe Recast 进行人身攻击和传播虚假信息时，Near 认为，“就像任何技术一样，它可能有利也有弊，但我认为绝大多数人类都是很棒的人，并将从中受益匪浅。”

[相关：人工智能在过去十年中是如何爆炸式增长的。]

然而，批评者仍然对将如此潜在混乱的工具交给公众持怀疑态度。最近，一些外包呼叫中心的代表也开始使用 AI 软件来消除他们母语的口音，以试图听起来更“美国化”，从而缓解西方消费者的偏见。虽然该工具的开发者认为他们的发明可以防止偏见，但许多人反驳说，这只是提供了一种逃避处理根本问题的手段——即排外和种族主义。

同样，一些大型企业的员工也成为了骗子的受害者，他们利用类似的音频模仿来冒充老板，骗取资金转账和密码。“我认为，在大型企业中，越来越多的人开始看到这些（骗局），因为它们是这类事情的绝佳目标，”Protocol 的网络安全记者 Kyle Alspach 在最近的 NPR Marketplace 节目中说道。

Alspach 还指出，这类骗局仍处于萌芽阶段，但这些策略很快就会变得更加普遍，而且不幸的是，更难区分事实与虚构。因此，不幸的是，AI 驱动的视觉和音频模仿的快速升级是无法阻止的。