Facebook 开源其人工智能背后的计算机

隆重推出“Big Sur”,人工智能的大脑。
httpswww.popsci.comsitespopsci.comfilesbig_sur_top_view_without_cover_gpu_removal.jpg
Facebook 已开源其名为 Big Sur 的人工智能服务器设计。该单元采用颜色编码,方便更换硬件——任何绿色的部分都可以安全触摸。Facebook
httpswww.popsci.comsitespopsci.comfilesscreen_shot_2015-09-01_at_4.05.35_pm.png
英伟达 (Nvidia)

将强大的人工智能软件开源,让全世界任何人都可以使用,这似乎是科幻电影中的情节,但 GoogleMicrosoft 在最近几个月都已付诸实践。现在,Facebook 更进一步,向全世界开放其 强大 AI 计算机的硬件设计。

这是一个重大举措,因为虽然软件平台无疑可以使 AI 研究更轻松、更可复制、更易于共享,但没有强大的计算机,整个过程几乎是不可能的。

今天,Facebook 宣布开源其服务器设计——据称其运行速度是以前的两倍。名为 **Big Sur** 的新设计,除了中央处理器 (CPU)、硬盘和主板等传统计算机部件外,还配备了八个高功率图形处理单元 (GPU)。但 Facebook 表示,新的 GPU 特别允许其研究人员以两倍的规模和速度处理机器学习模型。

为何重要

定期处理图像或音频对消费级设备来说是十分耗费资源的,而某些类型的人工智能需要分解和学习 1000 万张图片才能从中学习。这个过程称为训练,需要强大的计算能力。

首先,让我们先建立一些基础知识——人工智能的底层可能是令人畏惧且复杂的。人工智能是一个总称,涵盖了许多创建模仿人类思维和推理的人工系统的各种方法。实现这一目标有许多方法;目前最流行的方法是用于深度学习的各种人工神经网络。这些网络在输出信息之前必须经过训练,即给它们提供示例。要让计算机学会识别猫,你需要向它展示数百万张猫的图片(尽管 Facebook 的方法已大大减少了这一数量)。神经网络是虚拟的数学单元集群,它们可以单独处理少量信息,例如像素,当它们组合并分层时,就可以处理更复杂的任务。

httpswww.popsci.comsitespopsci.comfilesscreen_shot_2015-09-01_at_4.08.29_pm.png
深度神经网络在不同抽象级别上处理图像数据。英伟达 (Nvidia)

这意味着数百万张照片、短语或音频片段需要被分解,并由数百万个人工神经元在不同抽象级别上进行分析。如果我们考察传统计算机中适合执行这项任务的部件,我们有 两个选择:处理器 (CPU) 或图形处理器单元 (GPU)。

CPU 和 GPU 的区别

CPU 是现代计算机的主要“大脑”,它非常适合处理少量通用计算任务。它拥有相对较少的 核心(消费级电脑和手机为 4-8 个),但每个核心都具有更深的缓存内存,可以专注于一项任务更长时间。它会从计算机的随机存取内存 (RAM) 中检索其处理所需的数据。

GPU 则相反。一个 面向服务器的 GPU 可以拥有 数千个核心和少量内存,专门用于执行微小、重复的任务(如渲染图形)。回到人工智能,GPU 中众多的核心可以同时运行更多的计算,从而加速整个过程。根据 Facebook AI 研究工程总监 Serkan Piantino 的说法,CPU 以前是处理这类繁重计算的首选,但大规模项目需要庞大的网络芯片集群,这比使用 GPU 计算的芯片要多。

Piantino 表示:“GPU 的优势在于其极高的计算密度。目前,GPU 对我们关心的许多网络来说是最佳选择。”

Facebook 表示 Big Sur 可以与来自不同制造商的各种 GPU 配合使用,但他们特别使用了英伟达 (Nvidia) 最近发布的一款型号,该公司一直在 大力推广其产品以用于人工智能研究。在 CPU 与 GPU 在图像训练性能上的测试中,双核 10 核 Ivy Bridge CPU(非常快的 CPU)在 2 分 17 秒内处理了 256 张图像。而一个面向服务器的 K40 GPU 仅用 28.5 秒就处理了相同的图像。Facebook 在 Big Sur 中使用的较新型号——英伟达 (Nvidia) 的 M40——实际上更快。

许多英伟达 (Nvidia) 设备还附带了统一计算设备架构 (CUDA) 平台,该平台允许开发人员直接用 C 或 C++ 等原生代码编写到 GPU,以更高的精度并行编排核心。CUDA 是许多 AI 研究中心的 标配,例如 Facebook、Microsoft 和百度。

复制人脑?

GPU 是现代 AI 的主力,但一些研究人员认为目前的计算模式并非长久之计。联邦资助的 DARPA(国防部高级研究计划局)于 2013 年与 IBM 合作开展了 SyNapse 项目,旨在创造一种能够自然学习的新型计算机芯片——即接收输入本身就能教会硬件。其成果是 TrueNorth:一款于 2014 年发布的“神经形态”芯片。

TrueNorth 由 54 亿个晶体管制成,这些晶体管被组织成 100 万个人工神经元。人工神经元构建了 2.56 亿个人工突触,当接收到数据时,它们会将信息从一个神经元传递到另一个神经元。数据通过神经元传输,形成可被网络转化为可用信息的模式。

httpswww.popsci.comsitespopsci.comfiles20037300104_7a9adbc4cc_k.jpg
IBM 的 TrueNorth 神经形态芯片之一。IBM

在欧洲,一个研究团队正在进行一项名为 FACETS(快速模拟计算的涌现瞬态状态)的项目。他们的芯片拥有 20 万个神经元,但有 5000 万个突触连接。IBM 和 FACETS 团队构建的芯片是可扩展的,这意味着它们可以并行工作,从而极大地提高计算能力。今年,IBM 将 48 个 TrueNorth 芯片集群构建了一个拥有 4800 万个神经元的网络,据 MIT Technology Review 报道,FACETS 希望通过 10 万亿个突触实现 10 亿个神经元。

即使有了这个数字,我们距离重现人脑(包含 860 亿个神经元,并可能拥有 100 万亿个突触)还有很长的路要走。(IBM 在 之前的 TrueNorth 试验中达到了 100 万亿这个数字,但芯片运行速度比实时慢 1542 倍,并且需要一个 96 机架的超级计算机。)

Knowm 的创始人、DARPA SyNapse 的校友 Alex Nugent,正致力于通过一种特殊的忆阻器来推动计算的未来,他认为这种忆阻器将取代基于晶体管的 CPU、GPU 和 RAM。

自 1971 年计算机科学家 Leon Chua 首次提出“缺失的电路元件”理论以来,忆阻器一直是科技行业的“独角兽”。理论上,忆阻器可以取代传统晶体管——现代计算机的 基本构建块

晶体管可以存在于两种状态(开或关)。简单来说,计算机无非是一系列在开和关之间波动的晶体管。忆阻器利用电流来改变金属的电阻,这在这些值上提供了更大的灵活性。与晶体管的两种状态不同,忆阻器理论上可以有四种或六种状态,这会成倍增加忆阻器阵列可以存储的信息的复杂性。

生物效率

Nugent 与博伊西州立大学的硬件开发商 Kris Campbell 合作,创建了一个名为 AHaH(反赫布学习和赫布学习)的学习方法。这种方法使用忆阻器来模拟大脑中的神经元链。Nugent 表示,忆阻器根据施加的电压以双向步骤改变其电阻的能力,与神经元传输自身微小电荷的方式非常相似。这使得它们在使用过程中能够适应。由于其电阻充当天然的记忆,忆阻器将打破一些研究人员所说的 冯·诺依曼瓶颈,即数据在处理器和 RAM 之间传输时产生的处理能力限制。

httpswww.popsci.comsitespopsci.comfilesscreen_shot_2015-09-01_at_4.11.20_pm.png
Knowm 的忆阻器由博伊西州立大学的 Kris Campbell 博士创建。Knowm

Nugent 在接受《大众科学》采访时表示:“AHaH 计算认为‘让我们以这个构建块为基础进行构建’。通过利用这些‘神经元’,以不同的方式连接它们,并以不同的方式配对它们的输出,你就可以进行学习操作。”

Nugent 认为这项工作不仅适用于通用计算,而且特别侧重于机器学习。

Nugent 表示:“一旦你实现了我们目前已经能够达到的密度,你将其与忆阻器结合,你将其与一种使我们能够使用它的理论结合,你就可以将芯片堆叠成三维,最终实现生物效率。最终你会得到智能技术。”

 

更多优惠、评测和购买指南

 
© .