在《错配》一文中,我们深入探讨了国防工业核心的科学与技术——士兵与间谍的世界。
犹他州布拉夫代尔的城镇标语是“生活互联”。这个口号既无伤大雅又非常笼统——如此无伤大雅和笼统,以至于这两个词也例如是一家科罗拉多州治疗师的标语,也是 BBC 科技专栏的标题。然而,在华沙奇山脉阴影下的布拉夫代尔,这句话却带有了略微不同的含义。因为这个地方是代号为“蜂巢”的设施所在地。
一个设施拥有别名这一事实本身就暴露了其性质。蜂巢正式名称为犹他数据中心。它属于美国国家情报总监办公室——官方美国间谍机构的中央组织——并且存储着臭名昭著的国家安全局的数据。“如果你没有什么可隐藏的,”蜂巢前的一块牌子不祥地写道,“你就没有什么可害怕的。”
外面的人们并不确切地知道这个占地 100 万平方英尺的设施中到底有多少数据,但据估计,数量级达到了艾字节。为了更好地理解,一个艾字节约等于 3300 亿首泰勒·斯威夫特的歌曲。
显而易见且备受争议的是,间谍机构并不是唯一对保存大量信息感兴趣的组织。想想谷歌、微软、亚马逊和 Facebook(以及他们的朋友们)需要存储多少信息才能让互联网运行,并了解应该向你推广哪些奇怪的 T 恤。例如,Facebook 正在扩建德克萨斯州的一处设施,完工后占地 260 万平方英尺,占地 150 英亩,耗资约 15 亿美元。
没有人真正希望将如此大的空间浪费在嗡嗡作响的服务器、冷却系统和消耗大量电力和金钱的无聊建筑上。尤其如此,因为这些存储方法最终可能会过时。
如果——不必建造任何形式的蜂巢——所有这些信息都能装在你的手中,并且这种形式不会降解、过时或让你破产,那该多好?
情报界希望能找到将这种近乎可笑的愿景变为现实的方法。他们也希望与私营部门的数据“大户”分享他们的解决方案。为了实现这一目标,无论是对间谍还是对公司而言,美国国防部高级研究计划局 (IARPA [如果你想要更多缩写,可以理解为情报界的 DARPA]) 目前正在进行一项为期四年的项目,称为分子信息存储 (Molecular Information Storage),简称 MIST。2019 年授予两个团队的合同总额约为 4800 万美元。
MIST 的目标是利用一种生物形式的存储:DNA。遗传序列可以将整个人类编码在一个肉眼看不见的小包裹中,这比芯片或 CD 所能做到的要好得多。就像计算机使用 0 和 1 来表示图片、图像和文档一样,构成 DNA 的核苷酸碱基——腺嘌呤 (A)、胞嘧啶 (C)、鸟嘌呤 (G) 和胸腺嘧啶 (T)——也可以代表相同的信息。每个 A、C、G 或 T 都可以承载新的、编码的含义。
DNA 存储也非常高效:所有人类知识(就其本身而言,好像可以衡量的话)都可以存储在一个小房间大小的 DNA 中,而将这些信息存储在磁带上则需要数百万英亩的土地。此外,正如《侏罗纪公园》所证明的那样:DNA 的寿命比磁带、CD(安息吧)或闪存驱动器要长得多。而这正是 IARPA 感兴趣的地方。
像 IARPA 这样的研发机构会承担高风险、高回报的挑战,其结果可能对于其他组织来说过于不确定。他们将诸如将整个犹他数据中心装在桌面上的问题,恰如其分且自我赞扬地称为“IARPA 级难题”。
尽管如此,你也不会轻易地在装有整个维基百科的双螺旋之间穿梭(你不会吧?)。这是因为它仍然不够实用,也不够便宜——这是 MIST 旨在改变的两件事。
如果 MIST 成功,今天的一些大数据仓库可能有一天就会变成一堆双螺旋。该项目理想情况下将产生一个原型系统,该系统可以在 24 小时内将 1 TB 的数据编码到 DNA 中,并从 DNA 中提取 10 TB 数据,成本低于 1000 美元,功耗小于 1 千瓦。
IARPA 的项目旨在为学术研究和商业产业注入活力——推动它们朝着符合情报界利益的目标迈进,同时吸引它们的智力好奇心和未来的商业利益。如果 MIST 成功,它就能向私营部门展示一个潜在大客户(间谍)的兴趣以及其他公司可以借鉴的成功经验。
两个团队——一个由 Broad Institute 领导,另一个由 Georgia Tech Research Institute 领导——已经赢得了合同,试图让这种 DNA 数据存储不仅仅是一个巧妙的技巧,以便让每个人都能享受互联的生活。
数据量的增长速度超过了人们创建具有成本效益的存储方式的速度,这意味着一些信息最终会被丢弃。“任何有大量数据存储负担的人都有这个问题,”MIST 项目经理 David Markowitz 说。虽然没有人确切知道,但他估计全球每年产生约 30 ZB 的数据。“一个 ZB 有 1000 个 EB,”他说,“所以这意味着我们每年只生产足够的新磁带能够存档 0.3% 的数据,而且即使我们想保留,也无法保留超过 99% 的新数据。”

情报机构自然对捕获和保留所有这些数据有着超乎寻常的兴趣。“你并不总是能提前知道哪些数据对解决谜团最有帮助,”Markowitz 说。“谁对未来发生的某些事件负责?”要解开这个时间扭曲,就需要大海捞针,而且,Markowitz 说,通常“需要翻阅大量的历史数据”。
将 DNA 用于保存信息的想法已经存在了几十年,曾被视为一种“如果…会怎样”的可能性。例如,在 1988 年,一位名叫 Joe Davis 的艺术家(在哈佛的协助下)创作了一件名为“Microvenus”的作品。他将一个 35 位图像嵌入了大肠杆菌的核苷酸中,展示了一个古老的日耳曼字符,意为“女性地球”。
Davis 现在是哈佛大学 George Church 教授(基因编辑先驱,目前正试图复活猛犸象)实验室的一名附属研究员。2011 年,Church 将一本(谦虚地说,是他合著的)700 KB 的书籍编码到 DNA 中,并在次年进行了类似的项目,添加了图像和 JavaScript 代码。2013 年,欧洲生物信息学研究所的研究人员证明,他们可以编码超过 625 KB 的信息到 DNA 中,错误很少。
作为 MIST 项目的一部分,负责解决该问题的两支团队之一由佐治亚理工学院领导,该团队还包括 Twist Bioscience、Roswell Biotechnologies 和华盛顿大学与微软合作。该团队称其解决方案为 SMASH:可扩展分子存档软硬件 (Scalable Molecular Archival Software and Hardware)。
一旦 SMASH 被创造出来,它的工作方式将是这样的:软件会将信息翻译成遗传序列,吐出一系列代表数据的 A、G、C 和 T 字符串。然后,一台计算机将这些字母字符串发送到一个半导体芯片——本质上是关于应该按照什么顺序构建哪种 DNA 碱基的指令。
该芯片填充有微小的孔,深度仅有几百纳米。每个孔都是一个微小的 DNA 合成器,能够根据指令逐个碱基地生成遗传序列。每个孔并行构建它们的序列,就像母鸡并排下蛋一样。一旦给定的一组 DNA 链完成,它们就会被冲洗到一个液滴中——就像信息密度极高的好时巧克力。它可以湿着存放,或晾干以供长期保存。
要从 DNA 中提取信息,一个测序芯片会测量单个 GATTACA 分子的电学指纹。然后,科学家只需反向解码 DNA,将字符串排好顺序,并纠正错误。
瞧!未来,这可能就是农夫年鉴如何被存档和再次检索的方式。
MIST 的另一个团队由 Broad Institute 领导,与哈佛大学和 DNA Script 公司合作。“我们希望开发足够高吞吐量的系统,以便您可以开始部署它们并存档您可能不需要每天访问但肯定想保留的数据,”项目负责人 Robert Nicol 说。他以体育为例,这是一个无伤大雅的例子。“每一场棒球比赛的吞吐量都非常高,”他说。“体育场到处都是高清摄像头。”捕捉每一个球员,每一个观众。也许,20 年后,人们会想要看到观众对一位退役超级巨星的精彩击球反应的视频。
当然,大满贯不太可能是 IARPA 的“菜”。
两个项目都还没有完全投入使用,但到 MIST 项目结束时——也就是几年后——官员们希望它们能投入使用。为了弄清楚它的效果如何,IARPA 雇佣了测试和评估合作伙伴:拥有相关专业知识的外部组织,它们创建了一个评判新技术的方法。
对于 MIST,其中一个合作伙伴是洛斯阿拉莫斯国家实验室。在那里,在一个由 Tracy Erkkila 领导的团队中,科学家们为团队编写测试,然后创建答案密钥。在实验室里,他们自己将文件编码到电子 DNA 档案中。然后,这些团队必须将该档案写回 DNA。“他们基本上会给我们提供一大堆液态 DNA,”Erkkila 说。然后,评估人员将通过测序来读取他们的液态 DNA 样本。然后他们会给结果打分,并注意翻译错误。该实验室还会尝试将 DNA 解码回原始编码信息。
虽然 Erkkila 不能透露太多关于测试的细节(那就像一个高年级学生将一张 10 年级测验的旧副本传递给一个新来的九年级学生一样),但他会说,测试包括视频、音频、哈勃太空望远镜拍摄的照片(因为他说,“我们爱上了其中一些图像”),以及一个名为斯坦福兔子的小兔子的 3D 模型。
碰巧的是,动物是 Erkkila 引用以探索 DNA 数据存储可能性的原因之一。他举了一个例子,设想你是一名野生动物研究员,并想在阿拉斯加偏远地区安装一台相机。“我想连续记录两年,”他说。“你怎么存储这些信息?”至于间谍为什么可能需要能够保留海量数据,他没有透露。
不过,将 DNA 合成器放在冰川上,会是一个很好的笑点。
DNA 数据存储不是玩笑,即使它曾经是。当 Markowitz 在 2016 年首次开始探索 DNA 是否适合情报界的数据时,这并不是一个受欢迎的想法。“少数几位在 DNA 领域工作的人,他们会在会议上谈论它,然后就会被赶下讲台,”他说。“真的。来自传统存储行业的人。”
相比之下,如今,DNA 数据存储联盟——一个行业和学术界的合作组织——拥有数十名成员,包括 IBM、戴尔和微软。“没有人,”Markowitz 说,“再笑话了。”
如果他们还在笑,Markowitz 也许可以在 50 年后,通过保留那次会议以及每一次会议的记录(以 A、G、C 和 T 的形式),然后得意地笑出声来。
我们希望您喜欢“不堪重负”(Overmatched) 这个新专栏,它探讨了政府资助的研究如何改变日常生活。请继续关注 PopSci+ 以获取未来的连载文章。