世界上最快的科学机器

橡树岭国家实验室部署了一台有望成为世界上最快的超级计算机的机器,下个月公布的全球计算能力排名将印证这一点,而这台计算机将致力于开放科学。
NVIDIA

随着全球最快超级计算机TOP500排名即将发布,橡树岭国家实验室(ORNL)本周正式部署了Titan,一台20 petaflops的机器。Titan有望超越美国能源部设在劳伦斯利弗莫尔国家实验室的另一台机器Sequoia,从而使美国自信地重回超级计算金字塔的顶端(Sequoia预计将位居第二),此前美国曾在中国和日本之后追赶了好几年。

但Titan的意义远不止这些虚名。它将毫无疑问地成为世界上最快的开放科学机器,为全国各地从事气候变化、天体物理学、材料科学、生物燃料、燃烧和核能系统这六大核心领域的工业、学术界和政府实验室的科学家提供计算时间,帮助他们理解复杂的数据集。至关重要的是,它在传统超级计算机中使用的中央处理器(CPU)核心之外,还集成了图形处理器(GPU)。CPU和GPU的成功结合,可能会对超级计算的未来产生深远影响,因为科学家们正努力开发下一代百亿亿次科学计算机器。

“我们在这个混合计算环境中孤注一掷,并且成功了。”负责供应Titan GPU的NVIDIA业务部门Tesla的首席技术官Steve Scott表示,“Titan将是当今最大、最快的开放科学计算机。它可能或可能不会超越Sequoia。拥有这些头衔固然很好,但不如在这台机器上进行的科学研究重要。”

对于参与Titan开发的合作团队来说,这台计算机是否比当前的冠军Lawrence Livermore更快,都是次要的。Sequoia是一款IBM BlueGene/Q系统,用于运行DOE的机密研究,因此很快就会退居幕后,回到普通研究人员难以获得的国家保密层级。而Titan的设计初衷就是开放研究。它已经准备好以研究科学界前所未见的计算水平进行计算。

Titan每秒能够进行20,000万亿次计算。为了让你对这种计算能力的飞跃有个概念,可以参考一下2009年ORNL也曾拥有世界上最快的超级计算机,名为Jaguar(Titan实际上是Jaguar的升级版,而非从零开始建造的系统,尽管Titan的架构截然不同)。Jaguar在登上世界最快计算机榜首时是一个2.3 petaflops的系统(“flops”代表每秒浮点运算次数,是衡量超级计算性能的单位)。短短三年内,Titan的性能就提升了Jaguar的十倍。

这一飞跃很大程度上得益于ORNL重新思考构建超级计算机的方式。通过建造一台大十倍、CPU多十倍的计算机,理论上可以将计算能力提升十倍,但这样做在很多方面都不切实际。除了如此大型机器固有的硬件挑战外,2.3 petaflops的Jaguar的能源需求相当于7,000户美国家庭的能源消耗。一台20 petaflops的Jaguar则需要约60兆瓦的电力,相当于60,000户家庭的能源需求才能运行。为了在不消耗巨大能源的情况下让Titan达到现在的水平,需要大量的合作、对新型硬件体系的日益依赖,以及相当大的魄力。

NVIDIA

Jeffrey Nichols说:“2009年,我们在甚至还没有‘混合多核’这个词之前就发明了它。从那时起,我们做了一个为期三年的、极具回报的信念跳跃,实现了10倍的性能飞跃和5倍的效率提升。”

Nichols指的是将图形芯片(GPU)集成到传统的CPU架构中。GPU非常适合某些特定任务,尤其擅长每秒处理数十甚至数百次计算。CPU虽然不擅长此类计算,但仍然非常适合传统的计算任务,例如代码行的基本运行。为了建造Titan,ORNL联合了超级计算机制造商Cray和GPU制造商NVIDIA,创建了一个混合系统,包含18,688个AMD 16核CPU和18,688个NVIDIA Tesla GPU,它们协同工作,以更高的效率和速度完成任务。核心研究已经到位,但挑战在于将所有部件——总计40,000个——整合起来并使其正常工作。

Nichols解释说,Titan开发中的每个人都在一定程度上怀揣着信念,并且都面临着失败的可能性。Cray不得不采用一种全新的硬件和接口,能够实现CPU和GPU之间的通信,这是它以前从未做过的。NVIDIA一直声称其GPU拥有超越游戏主机或PC的重要能力,现在是时候证明这种混合计算真的可以在超级计算规模上实现。而ORNL可能处于最危险的境地,其在全球超级计算领域的领导地位岌岌可危。如果Titan未能按时(或根本)上线,那将是重大挫折,可能需要数年才能弥补,而这些年将很难在快速发展的超级计算领域追赶回来。Scott说:“对于一个有使命必须完成、不能容忍失败的组织来说,我们在这个混合计算环境中孤注一掷,并且成功了。”

这次冒险的回报丰厚。通过升级到16核CPU和性能加速GPU,Titan得以装在与Jaguar相同的200个服务器机柜中,而不是像Jaguar那样需要建造一个大十倍的计算机。虽然它比前代产品消耗的电力更多,但Titan仅需约9兆瓦的电力——如果是一台运行相同速度的全CPU架构,其能耗将是这个数字的零头。

这仍然是一笔每年1000万美元的能源账单,但与目前世界各地的机器以及我们必须跟上竞争(尤其是与太平洋对岸的某位竞争对手)的压力相比,Titan是美国超级计算的一大进步。DOE正试图建立百亿亿次计算能力(希望在2020年之前),而中国、日本、印度以及欧洲和世界各地的其他一些国家也正试图抢在美国前面(百亿亿次计算性能是下一个主要性能里程碑,相当于1000 petaflops)。与一些竞争对手不同,DOE试图在严格的财政预算和能源预算内实现这一目标。

Nichols说:“美国和世界其他地方之间的区别在于,我们试图在20兆瓦的电力范围内实现百亿亿次计算。”按当前价格计算,这大约是每年2000万美元的电力成本。中国目前没有这些财政或能源限制,这使得Titan在研发和国家安全方面取得的性能和效率飞跃尤为重要。尽管如此,要在上述预算内达到百亿亿次计算性能,还需要在相同的能源消耗下实现约50倍的性能提升。这无疑是艰巨的,但Nichols和他在ORNL、Cray、nVidia等地的同事们已经开始努力寻找解决方案。

Nichols说:“我们在2009年拥有了最大的机器,并且已经在考虑2012年的机器了。而且我们已经在考虑2016年的机器了。”

 

更多优惠、评测和购买指南

 
© .