照亮暗网的人

数据挖掘工具正帮助警方侦破网络人口贩卖案件

在克里斯·怀特能够利用能够挖掘暗网的搜索工具来打击伊斯兰国金融网络、摧毁武器市场并捣毁性奴隶团伙之前,他首先得想办法让自己不至于从银行黑鹰直升机的开放式机舱门上摔下去。

“在战区可没人会手把手教你,”他心想。

那是 2010 年 9 月。怀特正前往喀布尔总部外的一个前沿作战基地,他是一个秘密情报小组的成员,任务是帮助对抗塔利班和基地组织,切断他们加密的在线资金流动,并赢得阿富汗民众的心。

怀特身材精瘦,28 岁,穿着笨重的防弹衣,戴着一个硕大的头盔,头盔前面用胶带写着“怀特医生”,这一切让他感觉自己像个滑稽的杜卡基斯。起飞扬起的尘土让他难以呼吸。他还在和不熟悉的座椅安全带搏斗时,飞行员猛地操作操纵杆,怀特 slid toward the hot square of the door and the desert 200 feet below,滑向了炙热的机舱门,下方是 200 英尺的沙漠。

在下方,阿富汗对几乎所有人来说都是一个混乱而危险的地方。在美国领导的战争打了近十年后,美军的伤亡人数已达到 1000 人,平民伤亡无法估量,而奥巴马总统增兵 3 万人的行动也加剧了那个春天战事的激烈程度。许多人担心局势只会每况愈下。美国正在升级跨境巴基斯坦的无人机袭击。在“增兵”计划的策划者斯坦利·麦克里斯特尔将军及其手下在一家音乐杂志上对总司令发表了贬低性言论后,他发现自己失业了,美国指挥部也因此遭到攻击。

很难想象,就在几周前,怀特还只是另一个看起来 impossibly 年轻的哈佛大学博士后,穿着人字拖,期待着剑桥的夏天。直升机炮艇和战区都不在他的计划中;那时他有时间在广场上喝咖啡、攀岩,而在校园的另一边,他在工程与应用科学学院获得了享有盛誉的研究员职位,在那里他致力于大数据、统计学和机器学习的交叉领域。他获得了学术上的领先地位,并期望这种状态会永远持续下去——成为一名教授,建立一个实验室,并在学术界深居简出,发表白皮书。

但随后他的导师让他参加 DARPA 的一次周末会议。怀特知道 DARPA 是国防高级研究计划局的缩写,是五角大楼的科学创新部门,他们带来了仿生外骨骼、夜视仪、M16、橙剂、GPS、隐形技术、气象卫星以及互联网。DARPA 的项目汇集了聪明人、伟大的想法和巨额的政府资金。他们的目标是帮助国家防止技术上的意外,并每隔五到十年推出一项具有战略优势、改变世界的技术。

怀特不情愿地去了,他以为会是一场 PowerPoint 演示,一次招募演讲,“也许还有一些像你期望从 DARPA 那里得到的理论性问题——你知道,看看我们能不能制造某种巨大的激光,”怀特说。相反,他听到了关于世界战事的最高级别简报。他了解到,外部存在着黑暗势力。他们的行为残忍,但他们的战术和官僚体系却很复杂。他们正在杀戮和恐吓,扩张和胜利。他还听说,有机会利用大数据来对抗这些势力;他的国家渴望尽快抓住这一优势。

一天结束时,天才博士后怀特感到一种谦卑的幼稚。

“我什么都不懂战争,”他心想。怀特从未从实际操作的角度了解过细节。而这种视角越来越多地涉及需要理解巨量的原始的、看似无关的数据,需要从冰山般的绝密情报中提取计划和政策。

事实证明,美国在战区可以需要像怀特这样的人。

但首先,他得阻止自己从直升机门上掉下去。怀特 scrabbled back to his seat,爬回座位,抓住了安全带,并死死地抓住,而机枪手则懒洋洋地斜靠在敞开的机舱门处,警惕着地面火力。怀特觉得,这些经验丰富的战士就像《碟中谍》里的角色。

怀特是他们团队的一员,但扮演着不同的角色,是 DARPA 一个名为 Nexus 7 的秘密项目中的“技术宅 A 队”的一员。近十年来,美军一直在阿富汗收集情报,据称是通过中央情报局、国家安全局、GPS 卫星、手机记录、战场报告、数字金融流、监控摄像头、外国截获以及来自各种在线社交网络的“消防水龙带”式数据。虽然这些情报很有用——例如,用于定向无人机打击——但大部分都只是一堆数据。而美国为了了解阿富汗人民的需求,还有更多的数据没有得到利用。正如当时阿富汗美军情报主管迈克尔·弗林少将所说,这些被忽视的线索是“大量未被充分认识的信息”。

为了解决这个问题,DARPA 派出了怀特和其他十几个技术宅,让他们深入一线作战部队,更好地利用这些数据宝库。一些技术宅会将卫星数据和地面监视等信息融合,以可视化方式展示交通流量(或流量中断,这可能表明附近有塔利班检查站或路边炸弹)。怀特团队的任务是追踪塔利班和基地组织的资金流。

他们的数据挖掘工具针对战争的特定需求而开发,并取得了足够的成功,为他赢得了晋升、奖章和嘉奖。最终,怀特会将这些工具和他学到的经验带回家,在那里它们将帮助彻底改变刑事调查工作,为调查“巴拿马文件”等大型数据泄露事件的记者提供帮助,并照亮毒品、武器和人口买卖以及非法比特币数十亿美元自由流动的黑暗数据领域。不久的将来,它们甚至可能为更加知情的民主制度铺平道路。

滑向黑鹰直升机敞开的机舱门时,怀特以为那是个结束。但那仅仅是个开始。

Chris White
2010 年,克里斯·怀特在阿富汗,是一个技术宅数据挖掘团队的一员。图片由克里斯·怀特提供。

怀特不是那种口吃、像《美丽心灵》里的天才。他更像一个隐形的技术宅。去年 11 月,我在西雅图市中心一家酒店的大堂第一次见到他。这位身材精瘦、深邃英俊的俄克拉荷马州人,穿着一件亮蓝色的 Patagonia 防风夹克,在柜台附近出现,像一个更小、更安静的 hipster 版卡尔·萨根。也就是说,他不仅聪明、热情,而且善良、异常正常——这些特质似乎与他作为备受瞩目的未来科技巨星的身份格格不符。但表面的矛盾却是怀特的秘诀:他是一位技艺精湛的阿斯汤加瑜伽练习者,曾上过战场,是一位与佛教名人、传奇黑客关系密切的前政府雇员,也是一位熟练的武术家,致力于独自盯着电脑屏幕进行科学研究。

这些表面上的矛盾让如今 34 岁的怀特能够架起不同专家之间的桥梁。他不是那种写代码的天才,也不是那种寻找下一个大 IPO 的分析师,不是那种握手言谈的 CEO,也不是那种把一堆情报变成计划的战时将军。他是一个能够与所有人交谈、理解他们,并将他们的优势结合成一个没有人单独能想到的矩阵的人。

目前,这个矩阵旨在让互联网成为一个更有趣、更有用、更具民主性的工具,用于探索我们的数据宇宙。而且,事实证明,这不是他能够提前规划的职业。高中毕业后,怀特出人意料地选择了硬科学。然后,他出人意料地放弃了医学预科,转而攻读电气工程,让家人和他自己都感到惊讶。他对统计学和计算机科学的精通继续让他们感到惊讶,这使他走上了一条稀有的学术道路,在那里,机器学习和大数据与人类语言交汇。

“我们这一代一些最聪明的人正在利用互联网让广告商更富有,”怀特说。“但是互联网的连接性也是一个前所未有的同情心、理解彼此、理解我们自己以及理解我们世界的机制。还有什么比这更有趣呢?”

但当怀特从哈佛大学博士后研究员的职位前往 DARPA 汇报时,他已经凭借俄克拉荷马州立大学的电气工程学位获得了国土安全部的研究员职位,并在约翰霍普金斯大学语言与语音处理中心获得了博士学位。他还曾与微软、麻省理工学院、IBM 和谷歌合作过。而且,他说,这一切都没有让他为他称之为阿富汗任务的“极其严肃”做好准备。

“我被惊呆了,”怀特说。“那很可怕,而且压力很大,我非常专注地投入工作。我知道我正在为一件重要的事情做出贡献。但我完全不知道我正在经历一次彻底的人生改变。”

a gun
沃斯家

当时,DARPA 也在发生变化。新任主任雷吉娜·杜根 (Regina Dugan) 已经带领 Nexus 7 克服了五角大楼的官僚程序。她相信众包解决复杂问题的力量,并希望 DARPA 在战时扮演更积极的角色,而不是仅仅制定可能在十年后重塑军队的蓝图技术。正如她告诉国会小组的,她希望军方领导人知道 DARPA 正在参战。

Nexus 7 将是矛头。该项目由 DARPA 项目经理兰迪·加勒特 (Randy Garrett) 设计,杜根监督,大卫·彼得雷乌斯将军批准。团队分为两组,共约 100 名计算机科学家、社会科学家和情报专家。人数较多的小组留在国内,编写代码和整合军事数据集;怀特属于人数较少的小组,在阿富汗的军事总部帐篷里观察。

塔利班和基地组织是打着真主名义犯下暴行的军事组织,但它们越来越像犯罪组织,靠的不是宗教,而是金钱。这些钱支付了每一颗子弹和每一枚炸弹,维持了军队的团结和村庄的友好,购买了信息和保护、车辆和燃料,赢得了人心,有时也赢得了思想。

像任何犯罪活动一样,大部分钱来自犯罪活动:实体盗窃,或出售武器、毒品,以及日益增多的用于勒索、奴役或性交易的人口。

这些交易以及由此产生的利润,通过合法企业和空壳公司进行隐藏和洗钱。其中一些发生在实体世界——真实的毒品、真实的人、真实的现金。但越来越多地,这种犯罪活动——从通过暗网和社交媒体买卖商品,到通过比特币交易和加密账户过滤收益——可以在线更容易地进行,就在怀特职业生涯所研究的同一个数字世界。

阿富汗的联军将领们对此了如指掌多年,但这并不意味着他们了解所有细节。Nexus 7 的主要作用是在美国情报的“干草堆”中找到有用的“针”——包括任何能帮助将领们更好地了解阿富汗人民需求的线索。怀特团队专注于资金、武器、毒品和人口性交易的来源,弄清楚这些交易发生在哪里、为什么发生以及谁参与其中。怀特充当着国内 DARPA 团队和阿富汗军事指挥官之间沟通的中间人。

“不幸的是,这意味着要打很多冷电话,很多次请求与这些大指挥官会面。那压力真的很大,”怀特说。“我不是很善于社交。但我知道我必须忍下去,因为那就是我的工作。”

与战区里那些不知道也不在乎怀特为什么打扰他们工作的人展开对话,是一项比黑鹰直升机起飞更陡峭的学习曲线,是一场清醒的焦虑噩梦。怀特不胡说八道,也不谈论体育——坦白说,他一开始甚至不太喜欢和人打交道。最糟糕的是,他是个平民。他没有军装、军事训练或军衔——领子或袖子上的简写标志,表明谁需要为谁腾出时间。

“战争的一件事是,人们都很忙,”怀特说。

他甚至没有特别军事化的举止。当其他士兵在健身房举重时,这位精瘦的小瑜伽男,他们称他为“面条医生”,在摔跤垫上伸展身体、呼吸,一位常春藤盟校毕业生在一个充满“加油”的世界里下犬式。渐渐地,随着他从九天延长到九十天,然后又在接下来的一年多里多次签署了在该国的驻留合同,他成为了 DARPA 在该国担任 Nexus 7 的高级负责人,成为了这个军事世界的一员。他学会了尽早并频繁地使用“医生”这个称呼,学会了父亲送给他的那块令人尴尬的昂贵手表在政府着装规范中如同星徽和军阶一样管用。他还学到,在休息时间利用武术技巧将壮汉们制服在地,会给人留下好印象,并将好斗的士兵变成朋友。这也帮助怀特和他的团队完成了他们的工作。具体的指标是机密的,但总统的报告和嘉奖很清楚:Nexus 7 为赢得人心、思想和生命付出了有意义的贡献。

在他驻阿富汗期间,Nexus 7 赢得了指挥官们的尊敬,而“面条医生”也获得了相当于一星上将的 DARPA 军衔。Nexus 7 的努力还获得了国防部和财政部的嘉奖和奖章。其中,怀特团队因创建了“大型数据分析框架”,为“关键战略和操作问题提供了独特而有价值的见解”而受到赞扬。怀特本人被誉为该机构的功臣。

但所有这些荣耀都是有代价的。克里斯·怀特不再是那个登上飞往喀布尔的飞机时,一脸天真的研究生。“到最后,我退学了哈佛,失去了我的长期女友,”怀特说。但改变最大的是他对世界的看法。

怀特不认为自己是受了创伤。他没有冲进门,也没有踩在布满爆炸物的陌生土地上。但这是他第一次看到敌人——看到人类——能做出什么。

工作结束了,是时候离开战场了。但怀特觉得他还没有准备好放下每一场战斗。他很快将有机会将一场战斗带出战争的边界。

怀特协助追踪的数据,将冒着生命危险的人们引向了那些将妇女和儿童作为商品交易的地方,而怀特亲眼目睹了这些妇女和儿童的脆弱。他还了解到,这些罪行并非仅限于阿富汗。而且,找到它们并不需要飞机,只需要一个调制解调器。

你所知道的互联网并非全部。至少不是全部。首先,有必应、谷歌、火狐和 Siri 的互联网——那是你的 Gmail 和书签所在的地方,在那里你可以找到猫砂和足球比分。据说它包含了超过 200TB 的数据,比你将国会图书馆所有印刷材料数字化还要多。这读起来很多,但这并非互联网的全部;它只是表面。

估计不一,“表面”网络,或者说开放网络,仅占现有网络的 5% 到 20%。其余的则存在于大多数爬虫无法到达或索引的地方。一些数据是“深层”的,存在于密码保护的区域,如社交媒体和论坛,或日益普遍的动态网站中——这些网站更像应用程序而不是书页,并且在你与它们互动时会发生变化,例如 Kayak。网络的其余部分是“暗网”。

但是暗网不是你前往 amazon.com 时绕过的一条路。主要的访问工具是 Tor(最初是“洋葱路由”的首字母缩写)。洋葱路由最初由美国海军研究实验室开发,用于确保安全的情报通信。它通过一系列匿名节点传递加密信息,使其几乎无法追踪,让你能够浏览一个不希望被 cookie 和定向广告追踪的网络——并为那些害怕监视和威权控制的人创造了一个避难所。

暗网对政府用户、精明的网络自由主义者、ISIS 的规划委员会、告密黑客活动家或阿拉伯之春的策划者一视同仁。它的自由市场不受监管,专门买卖需要匿名进行的商品。在黑暗中,你总离非法、令人厌恶或暴力的内容只有三步之遥,或者,更有可能的是,离与 Jared From Subway(杰瑞德·弗洛瓦·萨布威,一名因健康食品减肥广告而闻名的前 Subway 员工,后因涉及儿童色情被捕)一起进监狱只有三步之遥。你大概能找到中国白海洛因、假的欧盟和美国护照、非连续的超级美元钞票、秘鲁可卡因、DMT、硬糖、粉红冰毒,以及被黑客盗取的名人裸照的下载点。

如果你是估计每天有 250 万访问这个黑暗世界的人之一,你可能会不友善地嘲笑(或在网上批评)这个描述。没有暗网目录是完整或准确的。这场“打地鼠”的游戏对一些人来说是解放,对另一些人来说则是令人沮丧的。它也是犯罪组织和恐怖组织进行沟通、广告宣传或买卖任何东西(包括人口)的完美场所。在你阅读这篇文章的时候,估计有 2100 万人正在全球范围内被贩卖。其中一半以上是妇女和女孩。超过 100 万是儿童。近四分之一被作为性奴隶买卖。在人口贩卖的受害者中,只有 1% 被解救。这是一个蓬勃发展的生意。高利润和低风险使人口贩卖成为地球上增长最快、利润最丰厚的犯罪活动之一;联合国最近估计,贩卖人口每年带来 1500 亿美元的收入。

作为一种生意,它与销售猫砂或圆领毛衣几乎没有区别;为了让消费者购买你的产品,他们必须能够找到它。虽然 Tidy Cats(猫砂品牌)的生产商可以投放广告牌,但人口贩子需要足够显眼让顾客找到他们,但又足够隐蔽以便执法部门无法追踪。不出所料,这意味着大部分性交易数据都隐藏在深层或暗网中,或者隐藏在表面网络的海量数据中,其方式与希望被消费者网络搜索引擎找到的合法企业截然不同。

必应和谷歌等搜索引擎对结果进行排名的确切算法是由凡人无法知晓的秘密算法决定的。但有两个因素占主导地位:被其他页面链接的页面排名更高,包含与搜索词匹配的关键词的页面排名也更高。这就是为什么维基百科页面通常出现在谷歌搜索结果的顶部——它们引用了其他较小的来源(如博客),也被它们引用。但是性交易者不想通过网络搜索被找到。为了扰乱索引,他们通过一次性广告进行宣传,不与其他广告链接。他们藏在聊天室或无法抓取的社交媒体帖子中。他们避免搜索引擎优化。他们使用照片和代码词而不是关键词。此时此刻,互联网上可能存在数十万个活跃的性交易广告。使用常规搜索引擎的侦探极难找到这些广告或对不遵循谷歌规则的罪犯提起诉讼。

克里斯·怀特有机会改变规则。

曾几何时,怀特放弃了一条安全的学术道路,去进行了一场智力上的军事冒险。两年后,这一切都结束了,30 岁的他必须开辟一条新路。从外面看,他的人生可能显得顺理成章。但对怀特来说,他感觉自己掉进了一个兔子洞,然后从另一边钻了出来。然后 DARPA 向他提供了项目经理的职位。他找到了他的“仙境”。

“我曾经想‘成为某事’,”怀特说——一个受人尊敬的职位,比如医生或首席研究员。“但现在我意识到我想要‘做某事’。”

作为 DARPA 的项目经理,怀特可以命名他的项目。而他想要做的“事情”是创造新一代搜索引擎,能够挖掘整个互联网。

在阿富汗,几乎没有现成的工具来挖掘大数据或可视化结果;它们大多是为专家和特定项目而开发的。但是,如果他们能够构建现成的组件并向所有人提供呢?就像一套超级搜索引擎的“厄瑞克特套装”,你可以以各种方式组装它们。

其结果是最初为期三年——据报道耗资高达 5000 万美元——的项目,用于构建这套搜索引擎“厄瑞克特套装”:一套约 20 个新的超级搜索引擎组件,由 17 个来自私营企业和大学的不同部门编写代码,旨在提供比 Firefox、Safari、Google 或 Bing 更深入、更透明的方式来与整个互联网上的可用数据进行交互和理解。

他们称之为 Memex——这个名字结合了“记忆”和“索引”——来源于 1945 年一份由科学研究与开发办公室的远见卓识的前主任范内瓦尔·布什 (Vannevar Bush) 撰写的文章。Memex 将是一个可视化思想和事实之间联系的工具。如果它奏效,它就能赋予人类研究人员超凡的洞察力。

正如怀特解释的那样,互联网上的数据本质上是对现实世界发生的事情的描述——照片、电子邮件、博客、电话、GPS 轨迹和社交媒体帖子。“调查者的目标是深入挖掘这些描述并回溯,”怀特说,“以理解那个现实世界的事件。”

使用传统的网络浏览器,这并非易事。

在谷歌中输入搜索词——例如电话号码——你可能会得到 20,000 个结果,指向表面网络上的页面,按关键词命中次数和每个页面与其他页面的超链接数量进行排名。你唯一的选择是逐一点击这些结果,检查每个页面,寻找你希望找到的那个答案。对于发现“蒙大拿州的首府是什么?”之类的事实来说,这还可以。但对于复杂的调查,怀特将其比作使用割草机修剪高尔夫球场。“这是顺序性的,并且容易出错,”他说。“有更好的方法。”

怀特的 Memex 项目将是一种组合方法。一些工具将深入暗网,将所有在那里发现的隐藏的洋葱网站列出,这是以前被认为太难而无法处理的事情。其他工具将索引和排序大量的深度和暗网在线论坛(这些论坛否则是无法搜索的)。其他工具将监测社交媒体趋势,连接照片,读取手写信息,或者从网页中提取数据并将结果交叉索引到数据地图中。

理论上,怀特的搜索引擎“厄瑞克特套装”可以用于各种现实世界的应用;作为 DARPA 的项目,他们需要证明它至少在一个应用中是有效的。理想情况下,该测试应用将解决一个真实世界的数据密集型问题,能够帮助调查人员让世界变得更美好,让国家更安全。

怀特决定将 Memex 的测试应用聚焦于帮助美国执法部门打击他曾在阿富汗了解到并认为“极其可怕”的犯罪:买卖人口。

在弗吉尼亚州阿灵顿 Memex 实验室的一台电脑屏幕上,现任项目经理韦德·沈 (Wade Shen) 展示了其中一些 Memex 工具如何被调整用于性交易调查。第一个是 Datawake。通常情况下,一名侦探在追踪一个线索(例如,与一名妓女相关的电子邮件)时,会将该信息输入谷歌,得不到确切匹配,但可能会得到大约 25,300 个结果,并可能只打开其中几个,然后发现一个新的潜在线索,将其再次输入搜索栏,然后继续。以这种方式搜索所有 25,300 条结果,将需要一名侦探花费两周时间,每天工作 12 小时。

Datawake 会梳理相同的谷歌搜索结果,从页面中提取信息,并以可视化的方式组织起来。屏幕上,结果显示为一系列圆圈。圆圈之间的线条表示数据之间的连接——例如,可能与该电子邮件反复出现的姓名、电话号码和照片。侦探可以浏览所有 25,300 条结果——并开始追查最有希望的线索,而不会遗漏其他任何结果。

这些工具使得地区检察官办公室能够回顾他们成功起诉的性犯罪案件卷宗,并重新使用已确立为证据的电话号码、姓名、电子邮件和实际地址。Memex 工具允许这些旧案提供搜索词来构建新案,并证明犯罪阴谋,将监狱里的人与仍在运作的性犯罪团伙联系起来。

其中一个最有用的工具是 TellFinder,它可以提取和整理性广告中相互引用的信息。通过找到广告中的共同点——作者的“迹象”——它可以将来自同一作者或组织的广告组合在一起,让调查人员更深入地了解业务范围。在一次演示中,沈展示了 869,000 个当前广告,这些广告在美国各地以人口密度气泡的形式呈现。他放大到城镇和司法管辖区,并按时间倒序滚动,显示广告的发布位置和随时间推移的消失情况。地图还显示了广告共有的电话号码、电子邮件和实际地址,甚至背景相同的照片(背景相同的汽车旅馆窗帘和壁纸可以将侦探引向一个性交易地点)。通过几次点击,沈展示了一个女性的广告如何在全国范围内移动,证明了她被贩卖的可能轨迹。

另一个名为 Dig 的工具将这些相互引用的信息进行排序,生成一个看起来有点像亚马逊搜索结果的列表。侧边有关键类别和术语,允许调查人员将结果缩小到他们正在寻找的信息。Dig 还利用 TellFinder 的图像搜索功能,并将其提升了一个档次。“这只是看待同一个问题的另一种方式,”沈解释说。“而这些只是例子——使用这些工具没有唯一的方法。”

一些 Memex 工具已经专门用于在暗网中执行类似任务,抓取那些否则无法搜索的网站以获取特定类型的信息。

在西雅图,怀特给我展示了另一个工具:Aperture Tiles。它使得曾经无法管理的巨量信息——想象一下地图上数十亿个移动的数据点——变得可以管理。为了演示,他结合了与性交易相关的汽车旅馆地址,以及在这些地址附近发布的在线帖子所附带的位置信息。(“大多数人不知道,当他们接受一个免费应用程序的权限时,他们自己和他们的数据才是商品,”他指出。)

模式经常出现:发布广告的人会开车在美国各地城市之间穿梭,每隔几天就决定“逃离这座城市”,这可能是为了躲避执法部门的注意。一些在美国频繁发帖的人在东南亚也频繁发帖。怀特说,这意味着什么,只有深入调查才能回答,但可以合理地推测这表明与国际性交易有关。

2014 年 12 月 19 日,弗洛兰·罗萨多 (Froilan Rosado) 坐在一辆停在曼哈顿中城一家性旅馆外的货车里,一个怀孕的 16 岁女孩坐在副驾驶座上。30 多岁的罗萨多是那种喜欢在 Facebook 上发布他与家人万圣节装扮成罪犯的照片,以及戴着墨镜拍下自己发型编成玉米辫、嘴唇边留着一撮胡子的自拍照的人。罗萨多是个皮条客。旅馆里是他的 18 岁妓女,“弗洛拉”。卧底警察在一个例行的卖淫诱捕行动中抓获了她。

但实际上,她是受害者。

弗洛拉告诉调查人员,她被赶出了寄养家庭,无处可去。罗萨多收留了她,然后开始逼她卖淫。调查人员很快了解到,罗萨多已经成为通过社交媒体诱骗女孩和妇女进入街头交易的专家;他让已经受他控制的年轻女性联系 Facebook 上只有 15 岁的女孩。一旦被诱骗,他就用暴力、毒品和金钱的承诺来控制她们。有一次,他扼死了拒绝服从的女孩。在一则短信中,他称一个女孩为“新鲜肉”。他将她们的照片放在 Backpage 性广告上,并附上联系电话。他会接电话,预订约会,然后等在外面收取分成。

为了对罗萨多提起更强有力的诉讼,曼哈顿地区检察官办公室的塞勒斯·R·万斯 (Cyrus R. Vance Jr.) 希望追踪更多的女孩。弗洛拉不知道她们的全名、电话号码或去向。她也不知道罗萨多如何掩盖他的数字踪迹。例如,她不知道他经常删除或更改他手下女孩的在线广告,或者更改她们的名字,或者更换一次性手机。因此,即使罗萨多在纽约市的瑞克斯岛监狱通过电话经营他的生意,调查人员也找不到任何能够将他与一个更大的卖淫团伙联系起来的证据。

他们转向了 Memex,该项目自 2014 年开始与他们的办公室合作。分析人员使用 Dig 和 TellFinder 的早期版本,挖掘罗萨多在已删除和当前性广告中留下的隐形痕迹,并立即关联了照片、姓名、电子邮件、电话号码以及更多的女孩。当罗萨多继续在监狱里做生意时,调查人员监听了他的电话,他提到了新的电话号码,他们可以将这些号码输入 Memex 并与其他人联系起来。很快,他们识别并找到了更多的受害者,收集了将罗萨多与一个卖淫团伙联系起来的证据,包括 10 名年龄在 15 至 18 岁的青少年,并形成了一个有力的案件。2015 年 9 月 15 日,罗萨多被捕近一年后,因性交易和推广卖淫罪被判处七到十四年监禁。如今,曼哈顿地区检察官办公室在其所有人口贩卖调查中都使用了 Memex——仅在 2016 年上半年就 screening 了 4,752 起潜在案件。

drugs
沃斯家

去年 11 月一个下雨的星期二,我在微软位于雷德蒙德的城镇大小的园区会见了克里斯·怀特,那里距离西雅图东北约十二英里。怀特的指示引导我沿着 520 号公路到达了一个停车场,然后是一栋标志着 99 号数字的现代玻璃幕墙大楼,里面几乎全是博士。

已过下班时间,怀特带我通过安检,进入了充满原型机和实验设备的迷宫般的办公室,以及覆盖着方程的玻璃墙。怀特于 2015 年 5 月离开了 DARPA,就在他的任期结束之前(该组织仅在有限的时间内雇用研究人员,以保持新想法的流动和人才库的更新)。但再一次,怀特觉得自己像是从兔子洞里掉出来,面临着一个十字路口。

起初,他考虑创办一家公司,利用自动化和人工智能让企业能够进行自己的数据分析和在线安全工作。这个想法足够好,吸引了风险投资公司的兴趣。但随后怀特想到了作为一家初创公司 CEO 的生活,这对他的未婚妻(怀特今年三月结婚)的生活造成了影响,以及它对世界的有限影响。

因此,他没有花费十年时间成为一名 CEO,而是选择创造一个他认为更简单但又更宏大的事物——一种生活方式。

作为微软特殊项目部门的首席研究员,他得以在 Memex 的工作基础上继续深入,为企业(以及记者、以及其他人)构建负担得起、用户友好、数据探索和可视化工具。

“门槛更高了,”他说。“问题不再是‘我们能制造出能用的东西吗?’而是‘我们能制造出能供十亿人使用的东西吗?’”

怀特希望他的新项目能够改变人们与大数据以及彼此的关系。它也可能以目前任何人都没有想象到的方式影响我们的民主。

在我离开之前,怀特打开了他的联想 ThinkPad X1 笔记本电脑,并打开了一个名为 Newman 的工具,这是一款数据可视化工具,可以显示电子邮件历史中的模式——在这种情况下,是杰布·布什 (Jeb Bush) 在担任佛罗里达州州长八年期间的电子邮件。几秒钟内,Newman 将 250,000 封电子邮件整理成一个节点花,显示了布什曾给谁发过邮件以及频率,谁被抄送,这些邮件被转发到何处,以及邮件回复的速度。这实际上是一张互动式的影响力和决策地图,让民主制度的内部运作变得透明。怀特可以轻松地按时间运行该程序,展示与说客或捐助者的关系,从而像手中转动苹果一样,全方位地展示候选人的记录。

“在知识经济中,这就是力量,”怀特说。“现在只有少数几个浏览器,它们是通往世界信息的唯一接口。有了 Memex,我们认为我们真的能在这方面有所作为。”

Memex 工具可以显示 ISIS 招募者或宣传的动向;空壳公司与洗钱之间的联系;非法枪支或劳动力的流动;以及实时显示社交媒体提及的词语和想法的频率以及围绕它们的意图的热力图。人们曾寻求它们来追踪西非的埃博拉疫情,以了解人们在热点区域的进出情况,并帮助白宫决定如何应对疫情。它们还可以追踪和绘制情绪和公众情绪在地球上波动和变化的情况。

不难想象,这种透明度如何能够加深我们对全球舆论的理解,远远超越我们对 Twitter 或个人 Facebook 动态的有限看法。更容易想象的是,这种透明度对当前的互联网权力和利润模式构成的威胁——依赖付费专家对产品进行排名或评论的广告商,或利用 SEO 技巧或金钱来引导互联网搜索结果向其商品倾斜的广告商,以及通过出售影响力访问权限来赚钱的搜索公司。或者独裁者利用这些相同技术来影响和控制公民。甚至在一个民主国家,少数几家科技公司控制着信息流——即使是那些最善意的公司也很难避免用户在看到什么、他们据此做出选择和形成观点的信息方面存在无形的偏见。

如果怀特是正确的,Memex 仅仅是新一代工具的开端,这些工具可以帮助拯救互联网,使其免于沦为华而不实的购物中心。这很好。这比我们现在拥有的要好得多。但它会深刻吗?它会让我们成为更好的公民,还是更加充实的人类?

怀特看了我一会儿,然后几乎笑了。

“这些是非常有趣且非常重要的问题,”他说。

而这些只是他刚刚开始揭示的问题。

 

更多优惠、评测和购买指南

 
© .