匿名时代的终结

能够将面部与姓名匹配的技术已经可以识别出罪犯。当它能识别任何人时,会发生什么?
年轻男子 Joan Vicent Canto Roig

点击此处,查看一张无用的照片如何变成一张可识别的面孔.

侦探 Jim McClelland 点击一个按钮,屏幕上一个模糊的犯罪嫌疑人特写——胡子拉碴,表情木然,偏离镜头——消失了。取而代之的是一个清晰呈现三维效果的虚拟头部。McClelland 旋转并调整头部,直到犯罪嫌疑人正对着前方,双眼直视屏幕。

这是小偷的脸,他曾用偷来的信用卡在费城郊区的一家便利店里悠闲地购物。警方追踪到了非法销售信息,并从商店的监控摄像头中截取了这张照片。McClelland 第一次运行面部识别软件时,结果毫无用处。运行在远程服务器上的算法产生了数百个候选人,这些候选人来自州里已知的罪犯数据库。但没有一个人的外貌足以接近到足以引起进一步调查。

这并不完全令人意外。自 2007 年 McClelland 和切尔滕纳姆镇警察局首次获得宾夕法尼亚州的面部匹配系统访问权限以来,面部识别软件一直未能产生可操作的结果。虽然大头照通常是正面照,但“野外”拍摄的,无论是街头拍摄还是天花板监控摄像头拍摄的,很少会直接看向镜头。侦探已经习惯了走死胡同。

但从 2012 年开始,该州对系统进行了彻底改造,并增加了姿态校正软件,这使得 McClelland 和其他受过训练的警官能够将拍摄对象的头部转向镜头。当我站在侦探身后观看时,他完成了小偷面部的调整,并重新提交了图像。屏幕上布满了缩略图式的罪犯照片。McClelland 指出了排名第一的候选人——在数学上被认为与提交的图像最相似的图像。

匹配成功了。侦探对此深信不疑,因为这名嫌疑人在去年因信用卡欺诈被捕并定罪。McClelland 选择进行这次演示,是为了向我展示新的面部识别软件的力量及其潜力:仅凭一张糟糕的截图,他所在的郊区警察局现在就可以从一个包含 350 万张人脸的联合数据库中,揪出一个犯罪分子。

今年夏天,面部识别软件的触角将进一步延伸。作为其下一代身份识别(NGI)计划的一部分,联邦调查局(FBI)将向全国推广访问超过 1600 万张罪犯照片的权限,各地方和州警察部门还将贡献数百万张照片。这是同类数据库中最大、最全面的数据库,它将一个相对专有的调查工具转变为一种广泛的执法能力。绝大多数没有内部面部匹配软件的警官,将能够将图像提交给位于西弗吉尼亚州克拉克兹堡的 FBI 服务器,在那里,算法将返回一个包含 2 到 50 名候选人的排名列表。

耗资 12 亿美元的 NGI 计划已经收集了不止面部信息。其存储库包括指纹和掌纹;其他生物特征标记,如虹膜扫描和语音模式,也可能被纳入。但面部与其他标记不同;它们可以在没有同意或专业设备的情况下被收集——任何摄像头手机都可以做到。这使得它们特别容易被滥用。如果说从美国国家安全局(NSA)的 PRISM 丑闻(该机构多年来监控了数百万个电子邮件账户)中能学到任何教训的话,那就是保护公民与侵犯隐私之间的界限很容易变得模糊。

因此,随着 FBI 准备将 NGI 扩展到全美,理性的回应是提出一个问题:面部识别能否创造一个更安全、更可靠的世界,减少悬案、失踪儿童,并将更多罪犯绳之以法?它能否做到这一点,而不会让我们所有人都失去匿名性?

***

FBI 的身份识别司自 1924 年成立以来就一直在收集罪犯数据,最初使用的是最早的生物识别标记——指纹。最初是零散地收集,堆积如山的沾满墨水的索引卡片,现在该局拥有约 1.35 亿张数字化指纹。早期的法医专家必须凭肉眼工作,将从犯罪现场提取的独特指纹纹路与已存档的指纹进行匹配。一旦计算机在 20 世纪 80 年代开始自动化指纹分析,潜在的长达数月的过程就缩短到了几个小时。专家们现在称大多数指纹匹配为“自动操作”,这是一项计算机算法可以在人类下班回家后仍然进行的任务。

指纹不会长出胡子,DNA 也无法戴上太阳镜。但面部可以长出头发,并随时间而下垂。

匹配算法很快发展,使得 DNA 检测、面部识别和其他生物识别分析成为可能。就像处理指纹一样,FBI 经常引领新生物识别标记的收集(例如,在 1994 年建立了第一个国家 DNA 数据库)。对 DNA 分析的信心非常高——比较 13 个不同的染色体位置,99.99% 的匹配都是正确的。指纹分析,除非是完美的指纹,否则可能不那么确定。FBI 表示,在假设所有者指纹已存档的情况下,将犯罪现场留下的模糊或部分指纹与数据库中的指纹进行匹配的正确率为 86%。这并不意味着有 14% 的可能性识别出错误的人:DNA 和指纹分析都可以被法庭采纳,因为它们产生的错误阳性非常少。

另一方面,面部识别从未能够直接确认身份——最多只能提供进一步调查的线索。部分原因是面部是可变的。指纹不会长出胡子,DNA 也无法戴上太阳镜。但面部会随时间和环境长出头发并下垂。人们之间也可能长相相似,原因可能是他们有相似的特征,或者低分辨率的图像欺骗了算法,让它认为他们相似。

由于这些限制,没有一个系统(包括 NGI)会提供单一的、确定的候选人,而是提供一系列潜在的匹配项。面部匹配软件几乎总是会产生某种答案,即使是完全错误的。NGI 项目经理 Kevin Reid 估计,高质量的探针(提交照片的技术术语)大约有 80% 的时间能返回正确的排名第一的候选人。但这个准确率具有欺骗性。它假设了像 McClelland 这样的警官很少能获得的图像类型。

IMRSV 供图

在我访问切尔滕纳姆警察局期间,另一位侦探带着一份打印件来到 McClelland 的隔间。“你能用这个吗?”他问。McClelland 几乎没看那张模糊不清、像素化的视频截图,就摇了摇头。“我已经用了这个系统这么多次,我几乎知道我是否应该尝试一下,”他说。每周有几十张照片被送来,他可能会处理其中一两张。当他真正获得确切命中时,很少是关于武装抢劫或袭击,也从未是关于谋杀。

McClelland 说,暴力罪犯倾向于隐藏自己的面部,而且他们通常不会在公共场合犯罪。如果碰巧有摄像头捕捉到行动,“他们会跑或走得很快,而不是像那些只是‘悠哉悠哉’地偷东西的人。”目前,面部识别最适合抓捕小偷小摸。当你的信用卡被盗并用于购买礼品卡和婴儿配方奶粉时——McClelland 说,这两者都因其高转售价值而成为热门选择——匹配软件可能会派上用场。

从某些方面来说,提高技术准确性已经超出了 FBI 的能力范围。执法机构不自己编写算法——他们付费使用私营公司编写的专有代码,并资助开发新方法的学者。生物识别研究界有责任将面部识别变成一个真正强大的工具,一个值得对其进行讨论的工具。

***

2011 年 8 月,伦敦爆发了骚乱。起初是对警察致命枪击事件的抗议,很快升级,五天内纵火和抢劫猖獗。骚乱发生后不久,当局部署了据报道正在为 2012 年奥运会开发的面部识别技术。“有 6000 张嫌疑人照片,”一家使用其算法的德国公司 Cognitec 的营销经理 Elke Oberg 说。“其中只有一张的角度和质量足够进行处理。”

面部识别会受到各种因素的阻碍,从镜头上沾染的污垢到低垂的棒球帽。但该技术最大的分析挑战通常可以用一个缩写来概括:APIER,即年龄、姿态、光照、表情和分辨率。

正面的罪犯照片提供了一个人脸部特征的二维地图,使算法能够测量和比较它们之间独特距离的组合。但人脸的形态会随着年龄而变化:下巴、下颌线和其他构成特定面容的标志性特征会扩张和收缩。姿态或表情的变化也会影响这些测量:头部的倾斜会减小眼睛之间的感知距离,而微笑可能会扭曲嘴巴并改变脸部的整体形状。最后,光照不足和低分辨率的相机都会模糊面部特征。

在大多数情况下,生物识别研究人员通过训练他们的软件来应对这些挑战,让每个算法经过无数次的搜索。像 Cognitec 和日本的 NEC 这样的公司,则教会程序来应对因图像质量不佳、角度差或其他缺陷而出现的例外情况。这些升级已经取得了真正的进步。十年前,将一个人与一张五年前的照片进行匹配意味着要克服 25% 的准确率下降,即每年 5%。如今,年准确率损失低至 1%。

计算机科学家们正在通过配套软件来补充这些成果,这些软件可以减轻糟糕照片的影响,并开启一个巨大的新图像库。目前部署的最佳示例是 McClelland 在宾夕法尼亚州向我展示的名为 ForensicaGPS 的三维姿态校正软件。总部位于新罕布什尔州的公司 Animetrics 于 2012 年发布了该软件,尽管该公司不愿透露确切数字,但全球的执法机构(包括纽约警察局和宾夕法尼亚州的州级网络)都在使用它。

在将二维图像转换为三维头像之前,McClelland 会调整各种十字准线,微调它们的位置,以便更好地与拍摄对象的眼睛、嘴巴、下巴和其他特征对齐。然后,该软件会创建一个详细的面部数学模型,捕捉标准二维算法会遗漏或忽略的数据,例如鼻子和颧骨的长度和角度。Animetrics 的首席执行官 Paul Schuepp 表示,它“极大地提高了任何人的面部匹配系统的性能。”

社交媒体拥有面部识别所需的一切:数十亿高质量、正面朝向的头像照片,其中许多直接与身份相关。

全球顶尖的生物识别专家之一 Anil Jain 正在密歇根州立大学(MSU)开发一款可能完全消除探针照片需求的软件。名为 FaceSketchID,其最明显的功能是匹配法医素描——就像警方素描师生成的图像——与罪犯照片。Jain 表示,它还可以使质量较低的视频素材变得可用。“如果你有低质量的帧或只有侧面照片,你可以绘制出拍摄对象正面视图的素描,然后将其输入我们的系统。”

换句话说,一名素描师可以根据目击者对谋杀案的描述,或者根据一名或多张模糊不清、角度不佳或部分遮挡的罪犯视频片段,创作出一幅肖像。将其视为好莱坞风格图像增强的手绘版本,它能从黑暗的像素化面部中提取细节。训练有素的素描师可以对图像进行修复,以正确的角度和光照重新塑造面部,并强调独特的特征——如靠得近的眉毛或鹰钩鼻。然后,该图画可以用作探针,自动素描识别算法将尝试查找具有相应特征的照片。与素描师的注重细节一样,代码侧重于寻找相似的突出特征,而不是相似的整体面部地图,从而找出相似的眉毛或鼻子。

截至发稿时,该系统自 2011 年以来一直在开发中,刚刚完成,Jain 预计将在几个月内获得授权。他领导的另一个项目涉及可以从红外视频中提取面部轮廓的算法——这是监控团队或高端闭路电视系统使用的那种。酒类商店的劫匪不太可能被红外视频捕捉到,但对于更具针对性的行动,例如追踪恐怖分子嫌疑人或在边境口岸发现他们,Jain 的算法可能是在捕捉一名重要目标与仅仅记录另一名匿名旅客之间的区别。FBI 曾支持过这项研究。

单独来看,这些系统都无法解决面部识别的分析问题。解决方案往往伴随着警告和免责声明。例如,一项名为超分辨率的技术可以将图像的有效像素数量加倍,但前提是必须在极短时间内连续拍摄多张图像。Animetrics 的一款名为 Vinyl 的新型视频分析系统,可以自动从视频素材中提取人脸并将其分类到文件夹中,将分析师一整天的工作变成一个 20 分钟的自动化任务。但分析师仍然需要将这些面孔逐一提交给匹配算法。其他研究将多个视频帧拼接成一个更有用的复合轮廓,需要巨大的计算能力。

但总而言之,这些不同的系统将极大地提高该技术的准确性。一些生物识别专家将如今的面部识别比作几十年前的指纹分析。可能需要数年时间才能制定出一套标准,使其达到证据级别,如果真的能达到的话。但是,随着零散的突破不断为整体匹配性能的提高做出贡献,真正实现“自动操作”的面部识别的前景越来越近。这究竟是一个承诺还是一种威胁,取决于哪些人的脸会成为目标。

***

在我参观期间,侦探 McClelland 运行过的最佳图像,迄今为止,是从社交媒体上提取的。对于面部识别来说,它再完美不过了——紧凑、正对镜头、光线明亮且分布均匀。也没有表情,这很有道理。他从一名据称用枪威胁熟人的男子的个人资料中截取了这张照片。

这次,Animetrics 的三维魔法不再需要了。照片输入进去,系统返回了第一、第二和第三名候选人,他们都具有相同的身份(图像是在三次不同的逮捕中拍摄的)。此案涉及一名目击者,她不知道嫌疑人的姓氏,但通过社交媒体与他有联系。个人资料也没有提供姓氏,但通过一个具有高度匹配度的先前罪犯,侦探就可以开始构建他的案件。

我们发布的照片,我们在其中展现出最好的一面,对面部匹配器来说是梦想。Animetrics 表示,它可以在只有 65 像素的眼间距的图像中有效搜索。在视频监控截图中,眼对眼像素计数 10 或 20 是很常见的,但即使是低分辨率的摄像头照片也包含数百万像素。

因此,社交媒体拥有面部识别所需的一切:数十亿高质量、正面朝向的头像照片,其中许多直接与身份相关。谷歌和 Facebook 已经成为该技术的研究孵化器。2011 年,谷歌收购了 PittPatt(Pittsburgh Pattern Recognition 的简称),这是一家从卡内基梅隆大学衍生出来的面部识别初创公司。一年后,Facebook 收购了以色列公司 Face.com,并将其面部识别工作转向内部应用。这意味着关闭了 Face.com 的 KLIK 应用,该应用可以扫描数字照片并自动标记出相应的 Facebook 好友。Facebook 后来推出了一个几乎相同的功能,名为 Tag Suggestions。出于隐私顾虑,该社交网络关闭了该功能在整个欧洲的运行。

与此同时,谷歌在很大程度上避开了争议。前首席执行官埃里克·施密特曾公开承认,公司有能力提供面部识别搜索。他们选择不这样做,是因为显而易见的隐私风险。谷歌还禁止为其 Google Glass 可穿戴计算硬件开发面部匹配应用程序。

Facebook 未对本文的采访请求做出回应,谷歌也拒绝了。但使用社交媒体巨头存储的照片进行面部识别并非虚假威胁。2011 年,在 PittPatt 被谷歌吸收后不久,卡内基梅隆大学的隐私经济学家 Alessandro Acquisti 展示了一个概念验证应用程序,该程序使用 PittPatt 的算法,通过将拍摄对象与 Facebook 图片匹配来识别他们。通过挖掘在线公开的统计信息,Acquisti 甚至可以为某些人分配社会安全号码。

部署一个国家或全球级的等效系统,该系统可以与数万亿张图像(而不是 Acquisti 的几十万张)进行探针匹配,这将需要巨大的处理能力——对于硅谷的顶级数据公司来说,这在可能范围内。 “但这并不意味着它不会发生,” Acquisti 说。“我认为这是不可避免的,因为计算能力一直在进步。面部识别的准确性也在提高。数据的可用性也在不断增加。”

所以,这是一个噩梦场景:社交媒体会故意背叛我们,并称之为一项功能。Acquisti 预测,这最多会在 20 年内发生。但还有另一个不太遥远的途径可以访问 Facebook 和 Google 的数十亿张面孔:当局可以简单地提出请求。“任何由公司收集的、执法部门知道其已收集到的信息,最终都会被传唤以达到某种目的,”诺特丹大学计算机科学教授、生物识别和数据挖掘专家 Kevin Bowyer 说。

问题不在于 Facebook 是否会将数据交给执法部门。该公司有向特定账户提供协助积极调查的记录。它也陷入了 NSA PRISM 计划的漩涡,被迫与其他公司一起允许对其用户数据进行广泛监控。“我们看到 NSA 监控以及 FBI 如何获取记录,其中很多都来自私营公司,”非营利性数字权利组织电子前线基金会的资深律师 Jennifer Lynch 说。“数据、照片,它们就成了政府的‘蜜罐’。”

值得注意的是,FBI 并非 NSA。尽管以关联或事先推定来判定罪责很有诱惑力,但没有证据表明该机构存在生物识别数据滥用或过度使用的情况。如果 NGI 的面部数据库正如 FBI 一再描述的那样,仅仅是一个由罪犯照片组成的“通缉犯画廊”,那么它带来的隐私风险相对较小。

然而,“功能蔓延”——或者说面部识别系统悄无声息地纳入新数据的行为——已经发生了。当我问 McClelland 是否可以搜索 DMV 照片时,我以为这只是一个随口问问。驾驶员不是罪犯。McClelland 看着我。“在宾夕法尼亚州?可以。”

多年来,警方一直可以访问 DMV 照片,他们可以通过姓名、地点或其他参数搜索数据库。但到了 2013 年中期,他们获得了使用其他图像进行搜索的能力。现在,他们每次运行探针时,都会与宾夕法尼亚州交通部(PennDOT)数据库中的 3000 万多张驾照和身份证照片进行比对。McClelland 告诉我,他没有得到多少匹配,原因在于系统底层的算法。PennDOT 的首要任务不是追踪罪犯,而是防止创建重复的身份证。其系统有效地忽略了那些非标准的正面照片,这些照片是在 DMV 办公室拍摄的。其结果是,对宾夕法尼亚州大多数成年人的广泛面部收集,其中许多人只是申请了州身份证,而不是通过犯罪而放弃隐私,却被简单的数学选择所限制。“我有点喜欢这样,”McClelland 说。“你不会得到很多错误的回复。”

这些 PennDOT 照片对刑事调查可能带来的益处,还有待观察。但有一点是肯定的:每年都有数千次尝试越过 FBI 承诺不会越过的界线——从搜索罪犯照片到搜索所有人。

***

很容易就此打住,停留在面部识别的许多潜在噩梦场景的边缘。可靠的模式分析与全面的数据池的不可阻挡的融合,可能会像网络惊悚片一样,以一种令人毛骨悚然的方式展开。或者,也许,它就能拯救一天。

去年五月,波士顿马拉松爆炸案造成三人死亡,250 多人受伤的一个月后,MSU 的 Anil Jain 发表了一项研究,展示了本可能发生的情况。Jain 使用爆炸现场收集的监控图像,通过 NEC 的 NeoFace 算法对两名嫌疑人的面部进行了分析。尽管较年长的 Tsarnaev 兄弟 Tamerlan,在 2009 年因袭击罪被捕时确实有存档的罪犯照片,但在前 200 名候选人中却未能找到。他当时戴着太阳镜和帽子,算法无法将其与他的入档照片进行匹配。

Dzhokhar Tsarnaev 则不同。Jain 将一张年轻的 Tsarnaev 在毕业典礼上拍摄的照片,放入一个由主要为罪犯照片组成的一百万张图像的数据集中。在一次盲搜(即没有人口统计数据,如年龄和性别,缩小潜在候选人名单)中,NeoFace 将一张爆炸现场的照片与 Tsarnaev 的毕业照匹配为排名第一的结果。面部识别本可以为调查提供最好,也几乎是唯一的线索。

有一个问题。参考照片最初发布在 Facebook 上。为了进行这次匹配,执法人员需要对该社交网络的面部数据库拥有前所未有的访问权限,该数据库散布在数万亿张图像中。爆炸发生三天多后,Tsarnaev 兄弟通过杀死一名麻省理工学院的警察,并在剑桥及附近沃特敦的街道上展开一场枪战,结束了调查。进行面部分析的时间很短,技术障碍可能也难以克服。

不过,这本来是可以成功的。

也许现在讨论面部识别的界限还为时过早。毕竟,它最大的胜利和最严重的侵权行为尚未到来。或者,也许只是太困难了,因为它意味着要面对一些艰难的权衡,比如权衡集体隐私的成本与拯救一个生命的代价。但也许,正是现在,正是因为这个原因,我们才应该讨论这项变革性的技术——在为时已晚之前。

你的身体可以背叛你的四种方式

1) 指纹/掌纹:在犯罪现场收集的潜在指纹包括指纹和掌纹。两者都可以识别个人,但潜在指纹通常模糊不清且不完整。去年四月,FBI 彻底改变了指纹分析,推出了第一个国家掌纹数据库,并更新了算法,使指纹搜索的准确性提高了三倍。

2) DNA:将嫌疑人的 DNA 与犯罪现场样本进行匹配,过去需要等待长达 60 天才能得到实验室结果。IntegenX 最近发布了 RapidHIT 技术,可以在 90 分钟内完成 DNA 比对——速度之快足以在审讯期间锁定嫌疑人。这款两英尺见方(约 0.6 米见方)的扫描仪将实验室的化学分析能力集成到单个一次性微流控芯片上。

3) 虹膜:虹膜扫描需要嫌疑人直视附近的摄像头,这使得它在刑事调查中几乎无用。但它是身份验证的一种万无一失的方法,几乎任何消费级相机都可以捕捉眼睛中独特的图案。学校、监狱和公司(包括谷歌)已经使用虹膜扫描进行安全防护。

4) 声音:虽然语音识别主要是一种商业工具——像巴克莱银行这样的银行使用它来验证转账——但语音模式匹配也能抓捕罪犯。Nuance Communications 公司开发的系统可以在 30 秒的电话交谈中建立一个独特的语音指纹,然后将其与已确认欺诈者的指纹数据库进行比对。

面部识别面临的五大挑战

1) 年龄:岁月会在面部留下痕迹。两张同一人的照片之间的时间间隔越长,下颌线改变或鼻子变大的可能性就越大。任何其他特征也可能随着年龄的增长而失去其标志性的相似性。

2) 姿态:大多数匹配算法会比较各个特征之间的距离——例如,眼睛之间的距离。但一个人如果偏离镜头,其相对测量值可能会发生巨大变化。

3) 光照:昏暗的光线、浓重的阴影,甚至过强的亮度都可能产生同样不利的影响,剥夺算法识别和比较多个特征所需的视觉细节。

4) 表情:无论是张大嘴巴的喊叫,还是微笑,或是一脸不悦,如果被拍摄者的表情与参考照片中的表情不匹配,关键的标志性特征(如嘴巴的大小和位置)可能就无法对齐。

5) 分辨率:大多数面部识别算法的性能取决于照片的像素数量。这可能受到从相机质量到拍摄对象距离镜头远近(决定了隔离人脸所需的变焦程度)等一切因素的影响。

_本文最初发表于 _Popular Science _2014 年刊。

Animetrics 供图
Animetrics 供图
Animetrics 供图
Animetrics 供图
Animetrics 供图
Animetrics 供图
 

更多优惠、评测和购买指南

 
© .