NSA 的机器能否识别恐怖分子?

数据太少是个大问题
位于马里兰州米德堡的美国国家安全局总部。维基共享资源

据《Ars Technica UK》的一项调查声称,美国国家安全局(NSA)用于识别巴基斯坦潜在恐怖分子的机器学习算法可能无效,因为我们没有足够的数据来识别恐怖分子的迹象。

据《The Intercept》泄露的文件显示,NSA一个命名为“天网”(Skynet)的项目,曾利用巴基斯坦的蜂窝网络流量来识别和监控潜在威胁。与许多大数据中的机器学习算法一样,它接收数百万个输入值,并试图匹配某些模式。该项目由《The Intercept》于2015年披露,但《Ars》的调查深入探讨了该项目实际可能多么无效。

这与如今科技公司用来管理我们在网上看到的大部分内容的方法非常相似。Facebook使用机器学习来对你的新闻feed进行排名,谷歌也开始在搜索中使用机器学习。

但这些技术只有在机器最初接受了大量正确模式的示例训练后才能可靠工作。在这种情况下,正确的模式可能包括地点、频繁更换手机硬件等行为,以及只接听电话而不主动拨打。人权数据分析组织的研究主管Patrick Ball告诉《Ars Technica》,所使用的数据太模糊,无法得出可靠的结论。

Ball说:“首先,‘已知恐怖分子’的数量非常少,不足以用来训练和测试模型。如果他们使用相同的记录来训练模型和测试模型,那么他们对模型拟合度的评估就是一派胡言。”

“天网”项目的数据来自仅有的七名已知恐怖分子。

Ball说,为了测试他们的模型,“天网”项目使用了仅有的七名已知恐怖分子的数据,再加上随机抽取的10万名手机用户。为了测试其算法,NSA向其展示了七名已知恐怖分子中的六名模式,然后是所有正常模式,之后让算法在噪声中找到隐藏的第七名恐怖分子模式。据NSA的演示文稿显示,这些计算基于每位手机用户的80个变量,NSA掌握着5500万用户的数据。这与巴基斯坦超过1.8亿公民的人口相比,数据充其量是不完整的。

“充其量是不完整”也是对输出结果的绝佳描述。如果NSA漏掉了所有潜在匹配中的一半,它可能产生0.18%的误报率。一张幻灯片上赫然写着:“如果我们允许漏掉一半,统计算法就能以非常低的误报率找到信使。”在搜索了5500万条记录后,大约有99,000个结果将是误报。

但是,所有这些信息都来源于可能来自2011年或2012年的幻灯片。我们也不知道这些方法可能如何被改进、被抛弃,或者今天的使用方式如何,尽管它们在2011年可能几乎没有监管。这些幻灯片可能是虚假的。(虽然这不太可能,但并非不可能。)NSA现在可能拥有远超5500万条记录。

还应该注意的是,我们完全不知道NSA实际上在如何使用这些数据。它可能被用于情报报告,为无人机打击提供依据,尽管政府似乎并未将每一次正面匹配都视为威胁,尽管自2004年以来,已有高达3,994人被美国无人机袭击杀害

将如此大的权力赋予算法,如果只是用于标记Facebook照片或决定向谁展示广告,那并不是什么大问题,但当生命受到威胁时,如此大的误差范围是致命的。

Ball说:“这绝对是糟糕的科学。”

 

更多优惠、评测和购买指南

 
© .