

在今年的TED大会第一天临近结束时,其低调的策展人克里斯·安德森(Chris Anderson)走上舞台,发表了一项声明。“我们看到的一些事物所蕴含的计算能力确实令人震惊,”他说,“在我看来,事物似乎突然以一种意想不到的方式提升了一个档次。我们已经习惯了摩尔定律,习惯了事物越来越好。然后,在某些年份,突然之间,就像‘砰’的一声——有了跨越式的发展。”
TED最初是一个只面向技术怪才和风险投资家的专属会议,代表着技术(Technology)、娱乐(Entertainment)和设计(Design)。如今,1000多场TED演讲免费在线观看,观看次数已达3亿次,这三个首字母缩写的意义已经不如其会议口号所表达的精神——“传播思想”(Ideas Worth Spreading)——来得重要。无论如何,TED从不曾召集演讲者来支持某种“预设的趋势”。
预计到2011年,可用数据的总量将继续沿着其指数增长曲线达到1.8泽字节。(1泽字节等于1万亿千兆字节,也就是1后面跟21个零。)这也许就是为什么克里斯在陈述自己的观点时显得如此惊讶和欣喜。我们刚刚听了马蒂亚斯·阿斯特罗姆(Mattias Astrom)的介绍,他的公司以极其逼真的三维渲染技术数字描绘了世界上的城市以及其中的每一栋建筑。之后,数字艺术家亚伦·科布林(Aaron Koblin)解释了他如何可视化海量数据集(例如,描绘北美洲的每一次航班,然后按时间、飞机类型、高度等对数据进行细分,并以一种既具启发性又美观的顺序滚动播放的方式呈现)。科布林擅长众包项目,例如一首由数千名陌生人逐帧绘制的约翰尼·卡什(Johnny Cash)的音乐视频。细节令人惊叹;一位粉丝在一帧画面上就花费了31,000笔笔触。由于这是数字空间,并且每一帧的创作都被记录和在线归档,因此你可以看到每一笔笔触,就像每一位艺术家绘制的那样。
但直到第二天早上,我们才真正理解克里斯的意思。那时,麻省理工学院媒体实验室认知机器研究小组的负责人德布·罗伊(Deb Roy)走上舞台,向我们展示了终极家庭电影:24万小时的视频和音频,记录了他儿子从出生回到家后,与家中任何人几乎所有的互动。这提供了一个完全1:1比例的地图,展示了孩子是如何学习的,特别是他是如何学会说话的——如何驾驭抽象、语言和数据的世界。利用一个超过200太字节的原始数据集(相当于2000年美国国会图书馆全部印刷馆藏的20多倍),罗伊可以精确地追踪他儿子所说的每一个词语的经历,并从中提炼出关于语言习得的一些引人入胜的见解。
罗伊还表明,他开发用于存储和分析一个孩子说话经验的方法可以更广泛地应用,并且他已经开始这样做了。特别是,他将他精密的计算能力投向了社交媒体领域,例如实时观察一次总统声明及其成千上万的连锁反应、推文、转发、缩写、扭曲和反驳,从而绘制出大型社交网络及其演变的详细图景。
我们可用的数据量正变得越来越庞大。2010年,我们玩耍、游泳、沉溺、甚至淹没在1.2泽字节的数据中,而2011年的数据总量预计将继续沿着其指数增长曲线达到1.8泽字节。(1泽字节等于1万亿千兆字节,也就是1后面跟21个零。)IDC数字宇宙研究报告(我从这份报告中摘录了这些数字)有益地指出,如果有人想将所有这些数据存储在32千兆字节的iPad硬盘中,将需要575亿台设备——这足以堆砌成一面高61英尺、长4005英里、从迈阿密一直延伸到安克雷奇的墙。
那堵巨大墙壁中的一小部分将容纳谷歌的努力,即尽可能全面地统计自1500年以来的出版文字。该公司已经收集了足够的数据——约5000亿个词语,来自500多万本书——足以令人信服地声称一门新科学的出现,即“文化计量学”(culturomics)。最终,每个词语和短语的产生、演变和衰落都可以追溯几个世纪。利用谷歌方便的Ngram Viewer,我们已经可以看到“sex”这个词在1960年后的爆发式增长。或者观察伦勃朗(Rembrandt)的引用量在1940年逐渐增长,超过塞尚(Cezanne),结果不到十年后,毕加索(Picasso)的引用量就超越了两者。这些并非经过精心推敲、从少数伟大著作中提取的学术样本和推论;这是对一个词语或短语的拼写和用法逐年实际演变的精确考察。

因此,这就是我在TED大会上一次又一次演讲中看到的范式转变:从数据抽样和推断的世界,转变为一个在给定领域内所有数据都可以被收集和分析的世界。这就是大数据。
而大数据即将变得更加、更加庞大,因为我们正进入数字数据与生物学融合的时代。这种代码的合成将抽象的数字世界带回物理世界。我们当然对生命是如何表达的有所了解——DNA的四种碱基,20多种氨基酸,数千种蛋白质。我们可以通过克隆复制生命。现在,我们开始能够改写生命,不仅仅是一个基因一个基因地改写,而是一次改写整个基因组。这就像在托尔斯泰的小说中插入一个词或一段话(这是生物技术的作用)与从头写整本书(这是合成生物学的作用)之间的区别。如果从头写一本小说、种子、动物或人类器官,更容易从根本上改变其意义和结果。
无论你如何创建或编程一台计算机,第二天早上都不会发现自己 downstairs(楼下)出现了成千上万台新计算机。生命代码则不同。我们已经走了很长一段路,速度很快,才走到这一步。十年前,仅仅阅读一个生物体的全部生命代码,在处理海量数据方面就是一个突破性的成就。1999年,基因测序仪一次只能读取几百个DNA碱基对,因此克雷格·文特尔(Craig Venter)的人类基因组项目依赖于“鸟枪法测序”:一遍又一遍地复制基因组的片段。将它们随机打碎。将其输入基因测序仪。读取输出,然后使用计算机将每个序列与所有其他序列进行比较,寻找重叠。当找到重叠时,就像砌砖墙一样,一块一块地叠加,开始构建整个基因组。这是一个巧妙的技巧,但大多数人直到那时都认为由于涉及惊人的计算量,这是不可能的。然而,文特尔和他的团队建造了当时世界上最强大的私人计算机之一(在此过程中成为马里兰州最大的电力用户之一),并解决了这个问题。他们的测序方法现在已成为读取基因组的标准。
但与今天正在尝试的蛋白质-蛋白质相互作用建模相比,基因组测序的计算量简直微不足道。首先,你必须比较20种氨基酸,而不是4种DNA碱基对。而且,由于蛋白质的形状比DNA链要多得多,因此映射其所有组合的形状要复杂得多。今天的计算机几乎无法处理其中的几个变量。尽管摩尔定律取得了成就,但生命科学数据已经超出了当前所有计算机能力和存储的范围和能力。
换句话说,在新时代——从数字代码到数字加生命代码的过渡——生成数据的能力已经超过了我们存储和处理数据的能力。事实上,生命代码的积累速度比摩尔定律快50%;它至少每12个月翻一番。如果没有数据存储、传输和分析方面的重大进展,在未来五年内,我们可能根本无法跟上。
话又说回来,我们有充分的理由预期我们会实现必要的技术突破。因为世界上还有另一个,绝对根本性的变化正在大数据领域发生。当你将生命代码与数字代码结合时,新兴的应用与纯数字应用在革命性的一点上有所不同:这种软件会构建自己的硬件。无论你如何创建或编程一台计算机,第二天早上都不会发现自己 downstairs(楼下)出现了成千上万台新计算机。生命代码则不同。2008年,三位科学家——文特尔、汉密尔顿·史密斯(Hamilton Smith)和约翰·格拉斯(John Glass)——以及他们的同事,从计算机中提取了基本的基因序列,并编程机器人从罐子里取出构成DNA的四种化学物质,组装成了世界上最大的有机分子。然后,他们开发了将这种新分子植入细胞的技术。总之,他们编程了一个细胞,使其变成了一个不同的物种。有人称之为世界上第一个合成生命形式。它实际上是第一个完全可编程的生命形式。而且它会繁殖。
可编程细胞平台就像计算机芯片。如果你找到了你想要制造的东西的正确代码,它们最终可以被设计来帮助创造或完成任何事情。我是一间文特尔孵化公司Synthetic Genomics的联合创始人兼投资者,该公司正试图通过编程藻类来生产汽油(与埃克森美孚合作)、从煤中提取天然气(与BP合作)、快速-
原型疫苗(与诺华合作),以及培育生长更快的植物(与Plenus合作)。生命编程也可能解决如何存储庞大数据集的问题。所有数字数据都可以被编码到生命形式中,而所有生命形式也可以被编码为数字数据。理论上,这意味着你最终可以将《纽约时报》每一期的所有文字和图像存储在几个细菌的基因代码中,并进行复制。
2011年TED大会上的大数据盛宴令我惊叹不已。但数字生命代码的新时代有望让当今最辉煌的数据成就黯然失色。