

音频 深度伪造 通常已经相当有说服力,并且有理由预期其质量只会 随着时间推移而提高。但是,即使人类尽了最大的努力,他们显然也无法很好地区分原始声音和 人工智能生成的声纹。更糟糕的是,一项新研究表明,即使人们试图提高他们的识别技能,目前也对此无能为力。
根据今天发表在 PLOS One 上的一项调查,深度伪造音频已经能够大约四次尝试中愚弄人类听众一次。这一令人担忧的统计数据来自英国伦敦大学学院的研究人员,他们最近要求 500 多名志愿者审查英语和普通话的深度伪造和真实声音的组合。在这些参与者中,一些人提前收到了深度伪造声音的示例,以期帮助他们识别人工音频片段。
[相关:这个虚构的新闻节目完全由人工智能和深度伪造制作。]
然而,无论是否经过培训,研究人员发现,他们的参与者平均而言能正确识别深度伪造音频的时间约为 73%。虽然在大多数学术标准下这在技术上是及格分数,但错误率足以引起严重担忧,尤其是当这个百分比在接受审前培训和未接受审前培训的参与者之间平均相同时。
考虑到 深度伪造技术 在其短暂的生命周期中已经取得了什么成就,这极其令人担忧——例如,今年早些时候,骗子几乎成功地从一位母亲那里勒索钱财,利用其女儿被绑架的深度伪造音频。而且,她也不是唯一一个 遭受过此类 可怕情况 的人。
当你阅读(或者在这种情况下,倾听)字里行间的内容时,结果甚至更令人担忧。研究人员指出,他们的参与者在参加实验之前就知道他们的目标是识别深度伪造音频,这很可能使其中一些人已经高度警惕伪造品。这意味着毫无戒心的目标可能会比实验中的参与者表现得更差。该研究还指出,该团队使用的语音合成技术并不特别先进,这意味着更具说服力的音频已经存在。
[相关:AI 语音滤镜可以让你听起来像任何人——也可以让任何人听起来像你。]
有趣的是,当深度伪造音频被正确标记时,其潜在的泄露线索因参与者所说的语言而异。流利的英语使用者最常报告“呼吸”作为指标,而普通话使用者则侧重于流畅度、语速和韵律作为他们的破绽。
不过,目前,该团队得出结论,改进自动检测系统是打击不想要的 AI 声纹克隆的有价值且可行的目标,但也建议众包对深度伪造的人工分析有助于解决问题。无论如何,这都为建立对深度伪造和其他生成式 AI 技术进行 严格监管审查 和评估提供了另一个理由。