
底部的声谱图是ABC新闻采访中一段干净的本·拉登样本。请注意清晰的声学共振峰及其在页面上从右到左呈弧形排列的谐波。顶部的图表是11月有杂音的电话录音,其中共振峰被背景噪音所遮蔽——汤姆·欧文说,噪音如此之大,以至于任何计算机都无法识别声音。图片由Owl Investigations提供,摄影:John B. Carnett
去年11月,关于奥萨马·本·拉登录音带的分歧判决,不仅仅是美国和欧洲在基地组织威胁问题上的又一次分歧。这是正在升级的法医语音分析(或语音指纹)未来之战中的一记耳光。
11月12日,独立的阿拉伯电视台半岛电视台播出了据称来自本·拉登的电话录音,其中基地组织领导人称赞了最近的恐怖袭击,并承诺将故技重施。中央情报局和国家安全局立即转向他们的语音分析师。我们不知道绝密的国家安全局使用了哪些工具,但该机构的专家很可能像私营部门的同行一样,通过比较声谱图来解析语音,声谱图是一种图形化的语音呈现方式,自20世纪40年代以来变化不大。想象一下在纸带上刻出的刮擦状墨迹,你就能大致了解他们在研究什么。
电视台转向独立但与机构有关的专家进行自己的判断:这盘录音带是真的吗?几天之内,判决就出来了:本·拉登在世,并正在策划。
在大洋彼岸,瑞士的IDIAP(Dalle Molle感知人工智能研究所)转向生物识别软件分析录音带。该研究所的计算机将问题简化为算法生成的决策边界上一个闪亮的绿松石色数据点。“非本·拉登”一侧。瑞士的分析附带的限定词是,这项研究是出于“纯粹的科学好奇心,以……看看我们最先进的说话人认证系统会得出什么结论”。瑞士的生物识别程序认为,声音是本·拉登模仿者的可能性为55%至60%。充其量是模棱两可的,但足以给美国的判决泼冷水,并间接给传统的法医语音识别方法泼冷水。
回到新大陆,老派并不 impressed。
为了向我展示原因,汤姆·欧文,一位
北美最忙碌的法医语音分析师之一——也是美国录音证据委员会认证的八名专家之一——邀请我到他在新泽西州科洛尼亚的地下室录音实验室。欧文正是美国主要电视台寻求政府关于本·拉登录音带说法验证的专家。在我访问的下午,欧文刚刚结束了一个为期一个月的语音识别课程,为一群沙特情报官员授课。巧合的是,当欧文去年11月收到本·拉登录音带进行分析时,一位沙特内政部法医部门的队长在场。翻译不是问题。
欧文曾是纽约林肯中心的一名音频工程师,在20世纪80年代,一位纽约市警察局侦探带着一份“脏”的炸弹威胁录音找到了他的录音工作室,他因此踏入了法医领域。欧文清理了背景噪音,就像他清理过无数恩里科·卡鲁索到迪昂·沃里克等歌手的老录音一样。这让他对法医工作产生了兴趣。
欧文地下室的墙壁上挂满了落地式的频谱分析仪、信号处理器、均衡器、混音器、放大器和录放系统。但正如在法医领域经常发生的那样,大师最喜欢的工具仍然是一件老式设备——一台1973年制造的Reel-to-reel Voice Identification 700声谱仪。它与美国陆军情报官员在第二次世界大战期间用于识别和追踪德国无线电操作员而建造的模拟机器差别不大。
在我到来之前,欧文已经启动了这台机器,从1998年ABC新闻对本·拉登的采访中生成了一堆整洁的声谱图。这是欧文认为100%经过验证的基地组织领导人声音样本之一。机器的笔尖将本·拉登声音的声能转化为语音指纹,在附着在机器旋转滚筒上的纸带上蚀刻数据。
看着语音指纹,我很容易辨认出每个音节发音产生的刮擦状、条形共振峰或语音频率。这些模糊的痕迹看起来像是在一个八线谱上堆叠的方形音符。欧文解释说,人声不是发出单一的音符,而是和弦或泛音。
欧文递给我一张11月半岛电视台广播的声谱图。纸带上从上到下、从头到尾覆盖着一片黑色的线条。在欧文的指导下,我仿佛能看到潜在的共振峰条,它们几乎被背景噪音和广播载波信号的黑暗面纱所遮蔽。欧文坚持认为,生物识别程序永远无法穿透噪音。“它们是为完美样本设计的。”他说,清理录音带也行不通。“如果你只想更清晰地听到他在说什么,那没问题。但清理背景噪音会去除我进行识别所需的高低频率。”他说,生物识别系统需要相同的频率,虽然他相信国家安全局已经获得了本·拉登他无法获得的样本,但他不相信该机构在分析方面取得了生物识别方面的突破。
“我确切地知道他们拥有联邦调查局和中央情报局没有的东西。但他们的技术大部分都用于监听,”欧文说。
对于一个简短、质量差的录音,欧文的方法能有多确定?录音带不仅有杂音,而且11月的录音带和ABC采访之间只有大约六个相同的词。(美国录音证据委员会的标准要求至少有20个相同的词——最好以相同的顺序——才能验证积极的语音识别。)
欧文指出,检查声谱图只是他工作的一半。他的工作是倾听每种声音特有的各种怪异习惯和发音特点。受过训练的耳朵可以检测到因缺牙引起的轻微哨音,一个人说话时吞咽的倾向,甚至一个人说话时咬紧下巴的方式。
欧文给我播放了他称之为“短期记忆录音带”的东西,这是听觉语音识别的关键工具。拼接的录音带在本·拉登ABC采访的2.5秒片段和刮擦的半岛电视台广播之间来回切换;欧文倾听的是——语音识别基于的是——声音在表达共振峰结构,尤其是元音方式上的独特性。“是同一个人,”欧文说。他坚持认为本·拉登的声音有很多独特性,但他拒绝详细说明那些声音特征,以免给模仿者提供路线图。
在我未受训练的耳朵里,静电后面可能是达斯·维达。这一切似乎有些难以言喻——艺术与科学的混合,只有该国八名被授权的专家才能理解。这种灰色地带往往会让法律观察家担心法医科学的现状。
“我见过太多人被错误地指控打威胁电话,”退休的密歇根州侦探朗尼·斯姆科夫斯基承认,他是法医音频分析的公认先驱。“我认为在某个时候,我们必须找到一种方法来完全自动化语音识别。”
早在20世纪80年代,斯姆科夫斯基就积极地将他的专业知识贡献给洛杉矶县治安官部门为此所做的努力。该项目由国家司法研究所资助,在两年后因为DNA分析等更吸引人的项目抢走了联邦资金而夭折。
但当企业界看到语音激活银行和信用卡账户以及语音安全系统潜力时,便投入了大量资金来解决这个问题。Nuance Communications公司(语音指纹技术领域的商业领导者)的语音研发总监拉里·赫克表示,过去十年取得了巨大的进步。“我们拥有衡量一个人语音物理特征的算法,”他解释说。“但我们仍在研究行为方面的问题。”
换句话说,一个好的生物识别程序可以在人类语音的声谱分析方面取得优异成绩——这是人类专家评估的第一部分。这足以识别一个在高质量麦克风中重复自己名字的清晰样本。在理想情况下,最佳生物识别说话人验证系统的错误率低于0.5%。问题出现在样本不清晰的时候。
这就回到了我们对所谓的本·拉登广播的瑞士分析。IDIAP是一家国际知名的生物识别研究所,它使用15个经过认证的录音来校准其语音识别软件,以识别基地组织领导人的声音。然后,它的研究人员将程序的准确性与另外15个本·拉登认证录音和16个其他阿拉伯语说话者的录音进行比较。后者包括两人故意模仿认证录音片段的录音。用于调整和测试系统质量的录音质量范围从良好到中等再到差。
该系统正确地拒绝了所有16个“非本·拉登”,包括本·拉登的模仿者,并且错误地排除了15个认证录音中的1个——成功率为97%。它通过在由是或否决策边界分隔的图表上生成数据点来排名每个判定的确定性。(离分割线越远,决策的数学确定性越高。)最终,它对有争议的广播的分析产生了正好在“非本·拉登”一侧决策边界的数据点;因此,声音是基地组织领导人声音的可能性为55%至60%。
IDIAP总经理赫维·布尔拉尔承认,该系统还有很长的路要走。“有些事情你可以用来混淆说话人验证系统,而这些事情不会混淆人耳,”他说。“另一方面,有些人可以用声音模仿来欺骗人耳。但他们永远不会混淆计算机。”
布尔拉尔说,此时,生物识别技术应该补充而不是取代法医语音专家。但他毫不怀疑,在许多情况下,计算机将超越训练有素的人耳。
“我不知道是两年还是五年,”他说。“但我们终将到达那里。肯定会的。”