走进 Facebook 的人工智能实验室

研究人员正在利用我们的社交帖子来构建思考的机器。

是时候停止将 Facebook 仅仅视为一家社交媒体公司了。凭借其通过无人机提供互联网服务的努力、收购 Oculus 进军虚拟现实领域,以及对人工智能的持续追求,Facebook 已迅速成为世界上最先进的技术研究中心之一。

它并非孤军奋战:谷歌甚至 IBM 等公司也有类似的计划,而且整个领域的集体发展已经加速到人工智能必将塑造人类与计算机互动方式的地步。事实上,它们已经做到了——但却是悄无声息地,隐藏在幕后。Facebook 对这项技术有着浓厚的兴趣,每月服务 15 亿用户。该公司正试图通过多管齐下的方法来模拟通用人工智能——也就是说,让计算机的思考方式不像线性的、逻辑化的机器,而是更像我们自由思考的人类。虽然 Facebook 人工智能研究 (FAIR) 团队致力于解决通用人工智能问题,但像语言技术和 Facebook M 这样的小型团队则向用户部署实际功能。

Facebook 人工智能研究的诞生

一切始于 2013 年。Facebook 创始人兼首席执行官马克·扎克伯格(Mark Zuckerberg)、首席技术官迈克·斯科罗普夫(Mike Schroepfer)以及公司其他领导层在公司成立近十年后,对公司取得的成就进行了盘点,并展望未来 10 到 20 年的发展。

Facebook 已经开始在其非常受欢迎的社交网络上使用机器学习来决定用户在动态消息中看到什么内容,但这与当时最前沿的神经网络相比,显得非常简单。

一些 Facebook 工程师也一直在尝试卷积神经网络(CNN),这是一种强大的机器学习技术,如今被广泛用于图像识别。扎克伯格对人工智能的潜力印象深刻,即使是在早期阶段,于是他从 Google Brain 聘请了一位工程师 Marc'Aurelio Ranzato。然后,他找到了源头:CNN 的发明者 Yann LeCun。

Yann LeCun,现任 FAIR 主管,在人工智能研究领域有着辉煌的职业生涯。他于 1988 年开始在贝尔实验室(由电话之父亚历山大·格拉汉姆·贝尔创立,以其在电信和技术领域的众多实验而闻名)担任研究员,之后升任 AT&T Labs 的部门主管,直到 2003 年开始在纽约大学任教。现代卷积神经网络是 LeCun 职业生涯中工作的结晶。您是否曾想过自动取款机是如何读取支票的?那就是 LeCun 的功劳,他早期的一项工作是开发了一个名为“SN”的神经网络模拟器,并于 1996 年投入使用。

Yann LeCun
Facebook FAIR 主管 Yann LeCun 主要在公司纽约市的办事处工作,这样他也可以继续在纽约大学任教。Dave Gershgorn/Popular Science

“我开始与斯科罗普夫和马克交谈,我想他们喜欢我告诉他们的,” LeCun 在接受 Popular Science 采访时说。“然后他们试图说服我来领导它……当像马克这样的人找到你,说‘哦,好吧,你几乎可以全权处理。你可以组建一个世界一流的研究实验室,我希望你建立一个世界上最好的人工智能研究实验室。’ 我会说,‘嗯,这真是一个有趣的挑战。’”

Yann 对那个世界一流的研究实验室应该具备什么条件有一些想法。例如,如果你想吸引顶尖人才,就必须有一个雄心勃勃的研究实验室,并设定雄心勃勃的长期目标。然后,你可以给予人们一些工作上的自由,并且必须对你的研究非常开放。“这与 Facebook 的开放理念相符,” LeCun 说。

组建团队

负责创造 Facebook 未来研究的团队规模不大,总共只有大约 30 名研究科学家和 15 名工程师。劳动分为三个分支:Facebook AI Research 的主办公室位于纽约市的 Astor Place,LeCun 在那里与大约 20 名工程师和研究人员合作。类似数量的员工驻扎在门洛帕克分部,截至 6 月,FAIR 在巴黎开设了一个小型办事处,约有 5 人,与法国国家信息与自动化研究所 (INRIA) 合作。还有其他人在 Facebook 内部从事人工智能的部署工作,例如语言技术团队;FAIR 是研究部门。

这些研究人员和工程师来自科技行业的各个领域,许多人曾与 LeCun 合作过。高级人工智能研究领域并不算大,LeCun 的许多学生后来都创立了人工智能初创公司,这些公司后来被 Twitter 等大公司收购。

LeCun 曾告诉 Wired,深度学习“实际上是 Geoff Hinton、我和蒙特利尔大学的 Yoshua Bengio 之间的一个阴谋”。虽然 Hinton 在谷歌从事人工智能工作,Bengio 在蒙特利尔大学和数据挖掘公司 ApStat 之间分配时间,但 LeCun 成功地挖来了其他顶尖人才。

“当我第一次被任命为贝尔实验室的部门主管时,我的老板告诉我,‘你只需要记住两件事:第一,永远不要让你自己和你的团队成员竞争。第二,只聘用比你更聪明的人,’” LeCun 说。

负责语言研究小组的 Leon Bottou 是 LeCun 的长期同事。他们从 1987 年开始在 AmigaOS 上一起开发神经网络模拟器。Bottou 于 2015 年 3 月加入 FAIR,此前他曾在微软研究院工作,并探索了机器学习机器推理

Facebook New York City office
从左起,Leon Bottou、Yann LeCun 和 Rob Fergus 在 Facebook 纽约市办公室的一角工作。Dave Gershgorn/Popular Science

LeCun 还聘请了 Vladimir Vapnik 作为顾问,于 2014 年 11 月加入团队;Vapnik 和 LeCun 曾在贝尔实验室共事,发表了关于机器学习的开创性研究,包括一种衡量机器学习能力的技巧。Vapnik 是统计学习理论的创始人,该理论处理基于既定数据进行预测的问题。预测对人类来说似乎很简单,但实际上它依赖于海量的先验知识和对世界的观察。(但这将在后面详述。)Vapnik 是该领域的领导者,他继续致力于知识传播的研究,将师生互动中的线索应用于机器学习。

facebook illustration
打造更好的社交。Ryan Snook

目标

团队的规模和学术实力让 Facebook 能够设定宏大的长期目标,这毫不夸张地说,是 LeCun 所称的“明确无误的智能”系统。

“现在,即使是最好的人工智能系统也很愚蠢,因为它们缺乏常识,” LeCun 说。他讲述了一个我拿起一个瓶子然后离开房间的情景。(我们在 Facebook 纽约市的一个会议室里,叫做 Gozer the Gozerian——与《捉鬼敢死队》中的反派同名——这个名字对于讨论真正机器智能的诞生来说很不吉利。)人脑可以毫不费力地想象出一个人拿起一个瓶子并离开房间的整个简单场景,但对机器来说,基于这个前提,大量信息仍然是缺失的。

Yann 说,在我脑海中想象这个场景时,“你可能站了起来,即使我没有在句子中说,你可能走了。你打开了门,你穿过了门,也许你关上了门。瓶子不在房间里。我的意思是,你可以从那里推断出很多事情,因为你知道现实世界的限制。所以我不需要告诉你所有这些事实。”

人工智能界目前还不了解机器如何学习以达到这种推理水平。为了实现这一目标,Facebook 专注于构建能够足够好地学习以理解周围世界的机器。

LeCun 说,最大的障碍被称为“无监督学习”。目前机器主要有两种或两种学习方式:监督学习,即系统被展示成千上万张狗的图片,直到它理解狗的特征。这种方法在谷歌的 DeepDream 中得到了解释,其中研究人员颠倒了过程以揭示其有效性。

另一种是强化学习,即计算机被展示要识别的信息,并且在它做出的每个决定上只得到“是”或“否”的答案。这需要更长的时间,但机器被迫进行内部配置,并且当这两种学习形式结合时,可以产生稳健的结果。(还记得 DeepMind 玩 Atari 吗?)无监督学习不需要任何反馈或输入。LeCun 说,这就是人类学习的方式。我们观察、推断,并将它们添加到我们的知识库中。这被证明是一个棘手的难题。

“我们甚至还没有一个基本的原则来构建它。我们显然正在努力,” LeCun 说,然后笑了。“我们有很多想法,只是不太奏效。”

真正人工智能的早期进展

但这并不是说没有取得进展。目前,LeCun 对一项可以集成到现有卷积神经网络中的“记忆”网络的工作感到兴奋,它能让它们保留信息的能力。他将这种新的记忆保留模式比作大脑中的短期和长期记忆,分别由海马体和大脑皮层控制。(LeCun 实际上厌恶将 CNN 与大脑进行比较,而是更倾向于一个拥有 5 亿个旋钮的黑盒模型。)

该记忆模块允许研究人员给网络讲一个故事,然后在之后回答有关该故事的问题。

对于故事,他们使用了 J.R.R. 托尔金的《指环王》。好吧,不是整本书,而是对主要情节点的简短总结。(“比尔博拿走了戒指。”)当被问及故事中戒指在特定时间点的去向时,人工智能能够给出简短、正确的答案。这意味着它“理解”了物体和时间之间的关系,根据 CTO Mike Schroepfer 的说法,他强调这项技术能够帮助 Facebook 更准确地向您展示您想要看到的内容。

“通过构建理解世界背景、理解您所期望的系统,我们可以为您提供帮助,” Schroepfer 在 3 月份的一次开发者演示上说。“我们可以构建系统,确保我们所有人都能专注于我们关心的事物。”

FAIR 团队正在开发围绕“Embed the World”项目的背景。为了帮助机器更好地理解现实,FAIR 团队正在教它们将一切事物之间的关系表示为向量:图像、帖子、评论、照片和视频。神经网络正在创建一个复杂的内容网络,将相似的媒体内容分组,并将不同的内容区分开。有一个有用的视频可以可视化这个过程

LeCun 说,通过这个系统,我们可以开始“用代数取代推理”。而且它非常强大。Embed the World 项目开发的人工神经网络可以根据照片的视觉相似性将两张拍摄于同一地点的照片联系起来,同时还能判断文本是否描述了场景。它正在重建现实的虚拟记忆,并将其与发生的其他地点和事件的背景进行聚类。它甚至可以根据一个人过去的喜好、兴趣和数字体验“虚拟地代表一个人”。这在一定程度上是实验性的,但对 Facebook 的动态消息有重大影响,并以有限的方式用于追踪主题标签。

虽然有很多关于长期目标的讨论,但一路上取得的小胜利也使 Facebook 逐渐变得更聪明。2014 年 6 月,他们发表了一篇文章,题为“DeepFace:人脸识别的性能差距接近人类水平”,声称人脸识别准确率超过 97%。LeCun 表示,他相信 Facebook 的面部识别技术是世界上最好的,这是 Facebook 与学术研究机构的关键区别。现在,DeepFace 是 Facebook 自动照片标记的驱动力。

“如果我们有一个真正有效的想法,一个月内就可以呈现在 15 亿人面前,” LeCun 说,“让我们将目光聚焦在我们的长期目标上,但在此过程中,我们将建造许多将在短期内得到应用的成果。”

Facebook New York City office
Rob Fergus(右)站在 Facebook 纽约办公室的 FAIR 研究人员中间。Dave Gershgorn/Popular Science

Rob Fergus,一位在纽约大学和麻省理工学院计算机科学与人工智能实验室工作过的资深人士,领导着负责视觉的人工智能研究团队。他的团队的工作已经体现在照片的自动标记中,但 Fergus 表示下一步是视频。由于缺乏元数据或伴随的描述性文本,大量视频在噪音中“丢失”。人工智能可以“观看”视频,并能够任意地对视频进行分类。

这对阻止 Facebook 不希望的内容出现在其服务器上具有重大意义——例如色情、侵犯版权的内容,或任何违反其服务条款的内容。它还可以识别新闻事件,并策划不同类型的视频类别。Facebook 传统上将这些任务外包给合同公司,因此这可能在降低成本方面发挥作用。

在目前的测试中,人工智能显示出前景。当展示播放体育比赛的视频时,如冰球、篮球或乒乓球,它能够正确识别运动项目。它能区分棒球和垒球,漂流和皮划艇,以及篮球和街头篮球。

Facebook 背后的人工智能

Facebook 内部的一个独立团队——语言技术团队,专注于开发翻译、语音识别和自然语言理解。FAIR,即 LeCun 的领域,是 Facebook 人工智能推动的研究部门,而语言技术(隶属于应用机器学习部门)是实际部署软件的部门之一。

它们与 FAIR 合作,但在开发和部署方面独立运作,并且其工作已经开发了 493 个活跃使用的翻译方向(英语到法语和法语到英语算作两个方向)。

Facebook 的信念是让世界更加开放和互联,语言服务是一个自然的途径。语言技术负责人 Alan Packer 表示,超过一半的用户不会说英语,但英语构成了 Facebook 的大部分内容。

有 3.3 亿用户使用这些翻译服务,大多数是通过点击“查看翻译”按钮访问的。如果您是第一个点击翻译按钮的人,恭喜您,您已经使用了人工智能。第一次点击会向服务器发出翻译请求,然后该请求会被缓存供其他用户使用。Packer 说,夏奇拉(Shakira)的帖子几乎是即时翻译的。该团队还正在推出原生内容翻译,将显示“查看原文”按钮。

人工智能在这方面是必要的,因为“愚蠢”的翻译在传达人类互动方式方面无效。它会产生不当的语法,误解习语,并且没有俚语的参考。这是像以前的谷歌翻译那样的直接、逐字翻译的缺陷。

Packer 说,比喻和习语尤其困难,但一个理解潜在语义含义的人工智能会捕捉到它们。

“短语‘hot dog’,如果你只是把这些词直译成法语,是行不通的。‘Chaud chien’对法国人来说毫无意义,” Packer 说。“然后,如果有一张我滑雪的照片,我说,‘我今天‘hot dogging’呢’,这实际上很难学会,‘hot dogging’的意思是炫耀。”

这种理解尚未规模化,但早期结果表明这并非不可逾越的任务。Packer 说,诀窍不在于理解比喻或习语,而在于知道何时不按字面意思理解它们。

人工智能本质上是自适应的,并且可以快速学会俚语。语言技术团队最近了解到,法国足球迷正在使用一种新的俚语来表示“哇”,在对该神经网络进行该公开数据训练后,它现在可以可靠地翻译该文本。他们现在正致力于通过每天对新数据进行训练来扩展 Facebook 的词汇量,但所有语言现在每月都会更新。

Facebook M

我们现在已经习惯了数字个人助理,比如 Siri、Cortana 和 Google Now。但 Facebook 在其新的人工智能个人助理 M 上采取了不同的方法,M 能够执行超出您手机范围的复杂任务。Siri 可以发送短信,但 M 可以预订航班并制定旅行计划。在开发过程中,一位 Facebook 员工甚至让 M 安排了一系列与搬家公司进行的上门评估。(不过,您不能用 M 购买烟草、酒精、性服务或枪支。)

Facebook M 的骨干 actually 来自今年早些时候收购的一家初创公司 Wit.ai。他们加入了 Messenger 团队,由副总裁 David Marcus 领导,本月早些时候推出了 M

领导 Facebook Wit.ai 团队的 Alex LeBrun 表示,人工智能不仅使 M 在完成通用任务方面做得更好,而且在具有非常特殊例外情况的情况下也表现出色,例如带着婴儿旅行或在停电期间。这也意味着随着人工智能的发展,M 的能力也在增长。他希望甚至在三年内,M 就能为用户打电话给有线电视公司或 DMV 并等待接通。

“M 这样的服务的真正附加值在于能够满足您的请求,即使它有点特殊或奇怪,” LeBrun 说,“即使它很复杂且不是主流案例,它也能做到。”

Making a reservation through AI
通过人工智能 Facebook 进行预订

M 也在学习过程中不断进步。目前,它还不够完善,无法独立运行。一个“人工智能训练师”团队与该程序一起工作,如果 M 无法理解某个请求,训练师就会接管。然后 M 会从人类训练师的操作中学习,并在以后的请求中应用该技术。LeBrun 说,程序中还包含随机性元素,使其更接近人类的学习方式。这意味着它有时会尝试寻找新颖、更有效的方式来完成一项常见任务。

“人工智能训练师”是一个新职位,甚至 Facebook 仍在探索中。然而,他们确实表示,这不是研究人员和工程师的工作,而是更适合有客户服务经验的人。随着时间的推移,Facebook 将能够评估需要人工干预的请求数量,但最终的希望是将来不再需要人类。

然而,这些对于开发过程至关重要,因为它们的工作是双重的:作为质量控制的最后一道防线,以及教导人工智能。

LeBrun 说,有了人类智能作为守门员,M 可以作为 FAIR 开发的沙箱。“一旦他们有了测试的东西,它就会出现在 M 中,因为有了我们的培训和监督,这是真正无风险的。”

M 平台完全建立在 Wit.ai 的平台上(主要在 Facebook 之前开发),但 FAIR 也将利用用户与个人助理人工智能交互时收集的深度学习数据。

Facebook 在社区中的角色

“我们做的研究,我们是公开做的。几乎我们所做的一切都会发布,我们编写的大部分代码都是开源的,” LeCun 说。这些出版物可以在Facebook 的研究网站以及 ArXiv(计算机科学、数学和物理学的研究论文库)上找到。

facebook card stapled to hat
社区合作。Dave Gershgorn/Popular Science

这适用于人工智能社区的许多方面。LeCun 一直是开发 Torch(一个用于人工智能开发的 C++ 库)的领导者。与 Facebook 的其余团队一起,他与 Twitter 和谷歌 DeepMind 的研究人员合作,使 Torch 成为更好的工具,供大家使用。(该领域的许多专家如今都曾是 LeCun 的学生。)

LeCun 说,任何他们可能发布的其他内容,无论是可能集成到医学影像或自动驾驶汽车中的工作,都可以用来进一步推动该领域的发展。Facebook 的工作对 Facebook 用户很重要,但其研究团队的核心是致力于进一步丰富人类关于如何更好地用机械模仿智能的集体知识。

这就是为什么 Facebook 在人工智能社区中扮演着重要角色,为什么社区本身也如此重要。

“你在好莱坞电影中看到的场景,一个在阿拉斯加的孤独家伙发明了一个功能齐全的人工智能系统,而其他人却望尘莫及,这是完全不可能的,” LeCun 说,“这是我们这个时代最复杂、最重要的科学挑战之一,没有一个实体,即使是一个大公司,也能独自解决。这必须是整个研究和开发社区的合作努力。”

 

更多优惠、评测和购买指南

 
© .