探索拯救人类数据的最佳方法

在美国国会图书馆(位于华盛顿特区)的 内部,有一个活生生的时间胶囊。这个由电影、广播和录音部门管理的庞大存储设施里,摆满了蜡筒、唱片机和其他过时的视听设备。有些人可能会认为这是一个过时技术的垃圾场,但斯蒂芬妮·巴布(Stephanie Barb)喜欢称之为“失落玩具的国度”。 

“我们以前总是听唱片,”美国国会图书馆 IT 服务运营副总监巴布说。现在,拥有一台唱片机几乎成了一种奢侈品。 

当机器过时时,它们所承载的数据也可能丢失。随着新产品和服务的出现,软件和硬件逐渐退出通用领域。这是技术人员和像巴布这样的档案管理员在努力实现信息长期保存过程中不断遇到的几个障碍之一。目前,专家表示,没有任何一种存储设备能够永久保存数据。磁带、蓝光光盘,甚至 DNA 等选项可以提供稳定但相对临时的存储库,数据可以在其中存在,直到更好的技术被测试并推向市场。然而,这些选择各有缺点,没有一种方法在容量和耐用性上都是完美的,而且新的创新总是在不断涌现。 

例如,美国国会图书馆的数字足迹为 176,000 太字节,仅其网站上的图书、照片、视频和其他介质目录就占用了 5,350 太字节(相当于近 20 亿首三分钟长的 MP3)。目前,这堆数据正以每年约 1,500 太字节的速度增长。档案管理员们正在与时间赛跑,以延长重要文件和媒体的生命周期。 

“保存过程的一部分是保持操作系统和硬件的更新,”美国国会图书馆数字战略总监娜塔莉·布达·史密斯(Natalie Buda Smith)说。 

没有东西能永远存在

保存旧介质(如 LP 唱片和已停产的游戏机)中的文件需要一些 DIY 技巧。在该图书馆,档案管理员们会重建老式媒体播放器,以恢复数据并将其传输到更现代的存储形式。有时,团队甚至会开发专门的技术。例如,一个名为 IRENE 的系统(由图书馆与劳伦斯伯克利国家实验室联合设计)可以读取损坏的留声机唱片凹槽的深度,将音乐转换为数字格式。 

shelves with lots of old-style recording equipment
磁带机、唱片机和其他老式数据读取工具填满了“失落玩具的国度”。美国国会图书馆

巴布说,这对于符合版权保护的材料尤为重要。如果保存得当,书籍可以永久保存,但提交版权的、存储在更易损坏的介质(如 DVD、CD 和 DVR)上的物品会随着时间的推移而降解。“这让我们陷入了困境,必须将那些过时技术上的数据提取出来并以数字方式保存,因为我们会失去上面的内容,”巴布解释说。由于每次版权提交都会提供副本,美国国会图书馆通常会将其添加到藏品中,并打算更新到更现代的方法。 

备份你的工作

在未来保存数据时,保持内容存在的上下文非常重要。“内容说‘这是比特’;上下文说‘这是理解这些比特所需的所有其他东西’,”美国国家科学基金会存储系统研究中心(Center for Research in Storage Systems)名誉主任伊桑·米勒(Ethan Miller)说道。额外的上下文包括元数据、软件和视频游戏模拟器等硬件。它是现代的罗塞塔石碑——一把赋予古代文字和符号意义的钥匙。 

布达·史密斯说,目前收集的许多数据是“原生数字内容”,而不是需要数字化的内容。从互联网档案中收集的文物就是很好的例子。即使是虚拟优先的信息最终也可能存储在磁带等物理介质上,但在整个过程中,它可能以各种其他存储形式存在。在不同介质上保存多个备份也是一种好做法。 

磁带维系

图书馆将大部分数据保存在一种几十年前的介质上,这种介质至今仍经受住了时间的考验:简单且价格低廉的磁带。这种介质是一种“金发姑娘”介质,因其密度、数据写入速度和低成本而备受青睐。 

尽管磁带存储自 20 世纪中叶以来就已存在,但它仍在不断改进,以便在每英寸磁带上挤压越来越多的数据。像IBM 这样的公司正在努力将每盒磁带的容量翻倍(最高可达 45 太字节),同时使其格式在未来保持相关性。但磁带并非万无一失。如果磁条损坏或过热,数据可能会被擦除。而且,虽然磁带的读写速度比新型介质快,但其数据不像闪存驱动器或硬盘驱动器(HDD)上的信息那样容易访问或编辑。 

一种驱动力

你如何使用数据以及使用的频率,将影响哪种存储介质最适合。IBM 的存储策略师肖恩·布鲁姆(Shawn Brume)说,硬盘驱动器(HDD),即云基础设施的基础,是小型公司拥有数字收藏的良好入门解决方案。以电影制作为例。 

布鲁姆说:“《星球大战》前传的拍摄已经近 25 年了。”“迪士尼从未将拍摄这些影片的原始素材从数字技术上移开,并表示也不会这样做。”这是因为将它们保留在硬盘上,使得在电影制作人决定进行更改时,剪辑或插入素材要容易得多。 

但布鲁姆补充说,随着时间和规模的增长,硬盘驱动器会变得越来越昂贵,这使得像自动驾驶汽车这样持续生成大量数据的系统使用起来成本高昂且麻烦。据布鲁姆称,平均每辆无人驾驶汽车系统每年将产生 400 多太字节的数据:如果数百万辆汽车都这样做,那么公司将很容易被硬盘驱动器压垮。据布鲁姆称,在整个行业中,在 HDD 深密度存储(包括基础设施运营成本)上存储一太字节数据的总成本约为每月 0.70 至 0.80 美元。对于磁带来说,成本要低得多,约为每月 0.08 至 0.12 美元。因此,通过这种方法,信息最终需要迁移到磁带上,以实现成本更低、长期、离线的存储。“这是一个摄入、整理、协调和复制到磁带的过程,”布鲁姆说。 

如果你回顾历史,除了刻在山洞墙壁上的东西之外,没有任何东西是永恒的介质。

肖恩·布鲁姆,IBM 存储策略师

IBM 建议公司如何将数据从硬盘驱动器迁移到长期磁带基础设施,如果他们将来需要检索这些数据。但磁带的缺点是,与硬盘驱动器不同,它很难修改。即使只想更改一个细节,也必须擦除并重写所有内容。 

空间竞赛

一个经常被忽视的竞争者可能很快在永恒存储的竞赛中超越磁带和云存储。许多专家认为,蓝光,即聚碳酸酯光盘,显示出巨大的潜力,尤其是在将数据在未打开的盒子中保存几十年甚至几个世纪方面。米勒解释说,这种系统以其读取器中的紫色激光命名,比闪存或硬盘驱动器有优势,因为其部件不会磨损。 

这一切都归结于基本机械原理。硬盘驱动器在长时间关闭电源后读写能力会下降。同样,闪存驱动器的使用寿命有限。这是因为设备晶体管中的电子在使用过程中会泄漏,穿过屏障,并在几个月到几年内改变材料的电荷。“这意味着你必须不时地读取闪存并重写数据,”米勒说。 

这就是蓝光可以发挥作用的地方。米勒说,读取光盘所需的技术结构相对简单:基本上是一个旋转的电机、一个进出的读取器和一个低功率激光。光驱比磁带驱动器更简单。50 至 200 美元的较低价格也使其更具吸引力。 

对米勒来说,数据存储地点的问题归结于 100 到 1000 年后是否有技术能够读取它——无论是从蓝光还是更具实验性的存储形式,如玻璃和 DNA。 

布鲁姆说:“如果你回顾历史,除了刻在山洞墙壁上的东西之外,没有任何东西是永恒的介质。”但即使是那些信息也会腐蚀。随着记录保存的每一次新发明——石头、纸张、代码——知识仍然需要被代代相传并翻译到下一个地方。“我们一直不得不管理数据,”他补充道。“从来没有真正意义上的‘永恒’。” 

阅读更多 PopSci+ 文章。

 

更多优惠、评测和购买指南

 
© .