

一台每秒能进行 9.6 千万亿次运算的德克萨斯州超级计算机,通过研究 24,000 年前生活在西伯利亚南部中心马尔塔地区的一位小男孩的骨骼,解决了一个棘手的遗传学难题。
现有的遗传学模型曾推测,现代欧洲人的 DNA 来自三个不同的群体:40,000 年前来到欧洲的蓝眼睛、肤色黝黑的狩猎采集者;7,000 年前迁移过来的、肤色白皙、棕色眼睛的近东农民;以及一个较晚近的、基因贡献者身份不明的“神秘群体”。但没有人知道这个“幽灵种群”究竟是谁。
通过将这位古代男孩的基因组数据输入德克萨斯大学奥斯汀分校的 9.6 千万亿次浮点运算的“Stampede”超级计算机,哈佛大学的高级合著者 David Reich 和他的团队得以证实一项理论:这位男孩所属的“古代北欧欧亚人”群体,确实就是那个失落的种群。
早期欧洲的“幽灵种群”究竟是谁?
“他们一直在构建非常复杂的基因混合和种群分化模型,”华盛顿大学基因组科学博士后研究员 Joshua Schraiber 表示。他曾对 9 位古代人类进行了基因组计算机分析,并将其与一个包含 2,345 位现代欧洲人的基因组数据库 POPRES 进行了交叉比对。
闪闪发光的数据之板
如何从一块 24,000 年前的骨头,变成一个需要一周才能下载的、可供超级计算机使用的海量数据集?
第一步需要在这块古老的骨头上钻孔,并寄希望于骨粉中含有足够可分析的古代 DNA。DNA 在炎热潮湿的环境中会迅速降解,而研究中使用的古代 DNA 样本恰好来自德国、卢森堡、瑞典和西伯利亚等寒冷地区,这并非偶然。(事实上,科学家们更喜欢将提取的 DNA 储存在零下 80 摄氏度的冰柜里。)
“我们从洛什布尔(卢森堡)、德国的斯图加特洞穴和马尔塔地区获得了一些非常棒的样本,它们含有很高比例的个体 DNA,”Schraiber 说。“你会不断测试骨骼,直到找到一个含有大量内源性 DNA 的,然后你会喝一杯啤酒,因为你很开心。有时候确实会很幸运。”

拥有如此多的样本意味着软件可以轻松地将古代人类 DNA 与外观截然不同的真菌或细菌干扰物区分开来。
自 2010 年首次测序出尼安德特人基因组草图以来,高通量测序仪极大地改变了基因分析。 Schraiber 表示:“[能够]同时处理海量、海量的分子,[意味着],即使某个特定样本中只有 1% 是古代人类 DNA,那也是一个海量的样本。所以它是很大数字的 1%。这样你就可以重建一个基因组。”
但高通量测序仪通常会对给定的核苷酸进行 10 到 30 次采样,以确保不出错,这会产生海量数据。研究人员发现,通过来回邮寄两兆字节的硬盘比通过网络传输文件更快。
这就是超级计算机派上用场的地方。Schraiber 的工作是将海量、格式各异的数据集塞进一个名为“Beagle”的 DNA 分析程序。然后,他必须寻找古代人类和现代人类之间统计学上显著的关联证据。
一个完整的人类基因组约有 30 亿个碱基对,个体之间有数百万个位点存在差异。由于需要将每个个体的基因组数据与所有其他个体进行比较,Schraiber 不得不使用一种计算机科学家通常会尽量避免的算法。计算机运算次数随时间呈二次方增长——对于 N 个测试数据样本,需要 N^2 次运算。Schraiber 和 Beagle 一次最多使用 100GB 的内存,程序运行数日。
这些幽灵来自另一个大陆吗?
尽管拥有强大的计算能力和复杂的种群分化模型,但该团队确凿锁定第三个祖先群体的那一刻,也需要一些运气。
Schraiber 说,在他们工作期间,Reich 和他在哈佛的同事 Iosif Lazaridis 使用了一个关于“幽灵种群”的初步模型,其中包含与某些美洲原住民非常相似的 DNA 序列。
“David 和 Iosif 注意到,如果接近美洲原住民基因组的某个群体是现代欧洲人的祖先群体之一,那么数学上就更符合了。”
大约在同一时间,2013 年 11 月,哥本哈根科学家领导的一个团队在《自然》杂志上发表了一篇论文,介绍了马尔塔男孩的基因组,并得出结论,他与美洲原住民共享 DNA 遗产。
一旦马尔塔男孩的 DNA 被纳入模型,该团队就找到了匹配项,研究结果于 9 月发表在《自然》杂志上。现代欧洲人至少与这个北欧欧亚人种群共享部分 DNA,他们本身与大约 15,000 年前通过冰封大陆桥迁移到美洲的祖先美洲原住民密切相关。古代北欧欧亚人不仅是现代美洲原住民的祖先,还为现代欧洲人提供了高达 20% 的 DNA。
解锁过去
目前正在进行更多研究,以弄清楚“幽灵种群”是如何以及何时迁移到欧洲的,预计明年将有可能的答案。
最先进的 DNA 提取技术、高通量测序仪以及充裕的超级计算能力的强大组合,正在创造关于人类起源的大量数据。它还使得过去被认为遥不可及的对遥远过去的发现成为可能。
近几周来,哥本哈根大学地质基因组学中心的团队重建了来自俄罗斯南部科斯坚基地区一位 37,000 岁男子的 DNA,这是迄今为止组装出的最古老的欧洲基因组。10 月,德国莱比锡马克斯·普朗克研究所的一个团队测序了来自西伯利亚西部一位名为 Ust’-Ishim 的 45,000 岁早期人类的内源性 DNA,这是迄今为止创造的最古老的早期人类遗传记录。
目前如此。