2007 年 11 月,谷歌发布了 Android 这一开源手机操作系统,为日后主导移动市场奠定了基础。八年后,Android 市场份额达到 80%,谷歌正故技重施——这次是人工智能。
今天,谷歌宣布推出 TensorFlow,这是其开源的机器学习平台,让任何拥有电脑和互联网连接(以及一些深度学习算法的初步了解)的人都能接触到有史以来最强大的机器学习平台之一。超过 50 个谷歌产品已采用 TensorFlow 来利用深度学习(使用深度神经网络的机器学习)作为工具,从在“照片”应用中识别您和您的朋友,到改进其核心搜索引擎。谷歌已经成为一家机器学习公司。现在,他们正将使他们的服务与众不同的技术,开放给全世界。
隆重推出 TensorFlow,AI 版的 Android
TensorFlow 是一个文件库,允许研究人员和计算机科学家构建系统,对照片或语音记录等数据进行分解,并让计算机基于这些信息做出未来决策。这是机器学习的基础:计算机理解数据,然后利用它来做决策。当扩展到非常复杂的程度时,机器学习就是让计算机变得更聪明的一种尝试。这是更广泛、更模糊的人工智能领域。TensorFlow 因其在消化和输出数据方面的精确性和速度而变得异常复杂,可以明确地归类为人工智能工具。
以下是详细的细节:TensorFlow 系统使用数据流图。在此系统中,多维数据(值)会从一个数学计算传递到另一个数学计算。这些复杂的数据块称为张量(tensors)。数学部分称为节点(nodes),数据从一个节点到另一个节点的变化方式会告诉整个系统数据中的关系。这些张量在节点图中流动,这就是 TensorFlow 名称的由来。
TensorFlow 的开源让研究人员甚至研究生有机会使用专业构建的软件,当然,更实际的影响是它有潜力影响所有机器学习公司的研究。现在,各种规模的组织——从小型初创公司到与谷歌规模相当的大型公司——都可以采用 TensorFlow 系统,根据自己的需求进行调整,并用它来直接与谷歌竞争。最重要的是,此次发布赋予了这家全球最大互联网公司在人工智能领域的权威。
斯坦福大学计算机科学教授 Christopher Manning 三个多月前就获得了 TensorFlow,他的学生有机会接触该系统。在使用了一段时间后,Manning 决定将其纳入他的课程中。
除了 Android,他还将该平台与谷歌无处不在的电子邮件应用 Gmail 相提并论。虽然有竞争对手,但 Gmail 在大多数应用中都更简洁、更合理。
Manning 说:“并不是说在此之前没有可用的深度学习高级库。但总的来说,这些其他库是由三个学者和一个研究生开发的。”
虽然其他库,尤其是Torch和Theano,确实有小团队在更新它们,但这与谷歌机器学习基础设施开发人员的全力投入完全不同。Manning 说,虽然 TensorFlow 对社区来说是一份巨大的礼物(能够将优化神经网络的时间缩短 100 倍),但他们可能会通过开源他们的工具间接获益。
Manning 说:“极少数公司一直在雇佣大量有才华的人才,尤其是在人工智能和深度学习领域。谷歌并非慈善机构,我敢肯定,他们也考虑过通过让出这个领域,我们将拥有大量博士生在大学里,并且已经喜欢上谷歌的深度学习工具。”
谷歌顶尖工程师之一的 Jeff Dean,也是 TensorFlow 的两位作者之一(另一位是 Rajat Monga),对于社区的采纳程度持谨慎态度。他说,虽然谷歌在自己的工作中发现它非常有用,但真正的考验是社区是否会发现它同样有能力。其想法是提供一个工具,使整个社区能够更快速地从想法转变为实际的实现。
Dean 说:“我们希望,基本上,能够加速机器学习的研究和部署。”虽然这是送给社区的一份大礼,但理想的情况是,社区能够回馈,并与其他研究人员(以及谷歌)分享他们的成果。“机器学习社区在打磨想法方面做得很好,这非常好,但这与打磨与研究想法相关的可行代码不同,”Dean 说。
他还提到,TensorFlow 将帮助谷歌实习生回到学校后,因为他们现在可以访问曾经是专有的系统,用于他们在公司期间可能没有完成的项目。
TensorFlow 系统对于个人研究人员来说是一个相当完整的软件包。该系统是一个完整的、独立的库,附带工具和 Apache 2.0 许可证,因此可以在商业环境中使用。它可以编译在桌面或笔记本电脑上,也可以部署在移动设备上(首先是 Android,然后是 iOS)。它还附带关于如何修改和玩转该平台的教程和文档。
Manning 认为,能够在移动设备上运行深度学习算法是区分 TensorFlow 与其他开源系统的重要因素。
对于那些想按原样使用该系统的人,谷歌提供了一个研究人员现在就可以开始使用的版本(作为预编译的二进制文件)。还有一个应用程序编程接口(API),供软件开发人员训练和控制他们的 TensorFlow 模型。而且这并非仿冒品——这是谷歌应用及其他 50 多个产品中实际使用的系统。
谷歌人工智能实验室内部
谷歌将这个平台开放给世界,让我们有机会一窥该公司如何构思机器学习系统的开发。
在内部,谷歌在过去三年中建立了一个庞大的人工智能平台,现在他们将其推向世界。尽管如此,谷歌更希望你称之为机器智能。他们觉得“人工智能”这个词带有太多的联想,而他们本质上是在创造真正的智能——只是存在于机器中。
这是他们在公司多年来一直使用的模式:任何想要玩弄人工神经网络的工程师都可以从系统中分叉出来进行修改。正是这种开放的结构,使得公司内的 100 个团队能够构建强大的机器学习技术。
谷歌首席执行官 Sundar Pichai 在 2015 年 10 月的财报电话会议上说:“机器学习是我们重新思考一切的核心、变革性的方式。我们在搜索、广告、YouTube 或 Play 等所有产品中都审慎地应用它。我们还处于早期阶段,但你会看到我们——系统性地——在所有这些领域应用机器学习。”
欢迎来到谷歌,这里一切都是 AI,AI 是一切
要为谷歌的机器智能研究绘制一个具体的图表是困难的,因为它总是在变化,并且几乎渗透到公司中的每个团队。
谷歌工程副总裁 John Giannandrea 将此称为“嵌入式模型”。2015 年秋季,我在加利福尼亚州阳光明媚的 Mountain View 谷歌总部众多的时尚现代建筑之一遇到了他。
我当时在一个技术上不对公众开放的楼层,当我暂时无人看管时,一位工程师走过来,注意到我没有戴员工徽章。他问我是谁,说我是作家并没有让情况好转。谷歌以向公众开放其研究而自豪,但在实验室里的工作却被严密保守。
对我来说,谷歌的嵌入式模型意味着大量的步行。Googleplex 占地约七英亩,拥有 350 万平方英尺的办公空间。谷歌员工骑自行车穿梭于建筑之间,建筑周围是修剪整齐的公园,谷歌员工带着笔记本电脑坐在那里,无疑在解决复杂的计算机科学难题,或者在午休时间玩《我的世界》。不同的团队在不同的建筑工作,嵌入式机器智能研究人员在切换团队时也会切换建筑。
在里面,我看到的大部分看起来都像普通的办公楼。有隔间、有很多显示器的电脑,还有人们低声讨论工作,同时紧张地瞥向记者。墙壁上有挖空的洞,可以快速打个盹——你知道,办公场所里的事情。
在组织结构上,有一群研究人员一直在研究一般的机器智能问题,这些研究会反馈到谷歌的核心产品中,例如“照片”应用、语音搜索和搜索本身。有些项目最初只是谷歌想要做得更好的事情。Giannandrea 以手写为例。
他说:“我们公司希望了解人们如何写一个词。所以这是我们会永远投资的事情,即使我们没有产品。”
但由于谷歌的产品线非常广泛,通常总会有一款工具可以利用每一项研究成果(手写最终被融入了谷歌的笔记软件 Keep)。
一旦确定了用途,研究人员就会加入产品团队,协助实施。产品团队开发我们都在使用的特定应用程序,例如“照片”应用或谷歌翻译。
在一般研究方面,团队按其兴趣领域划分。有一个团队专注于教计算机看东西,一个团队致力于理解语言,一个团队致力于更好的语音识别,等等。
Giannandrea 说:“谷歌绝对希望拥有更好的语音识别、语言翻译、语言理解能力——所以这些计算机科学研究的前沿领域是我们一直投资的。”
谷歌有超过 1000 名研究人员从事这些机器智能应用的工作,他们在应用研究和理论研究之间不断轮换。其中一些研究人员从事更简单的问题,这些问题在严格意义上不能算作人工智能,但更多是统计预测方法。
据谷歌发言人 Jason Freidenfelds 称,谷歌的新母公司 Alphabet 对谷歌的机器智能研究的持续发展影响不大。虽然研究团队将留在谷歌内部,但与生命科学或 Google [x] 在机器学习应用方面的合作不会有任何障碍。
未来的声音
谷歌工具库中一颗冉冉升起的新星是语音搜索。即使您不完全知道它是什么,您很可能也遇到过它:它是谷歌主搜索栏中的那个小麦克风图标,按下后,您就可以通过说话而不是打字来搜索您的查询。同样的小麦克风也出现在谷歌的 iPhone 和 Android 搜索应用中,并且在许多智能手机的 Android 搜索栏本身中也能找到。
虽然表面上被认为是 Siri 的竞争对手,但谷歌语音搜索实际上已成为访问谷歌庞大知识库的次要入口,令语言识别团队高兴的是,它终于越来越受欢迎。
尽管谷歌不公布语音搜索与文本搜索的比例,但它提供了大量统计数据:移动搜索现在比桌面搜索更受欢迎,移动语音搜索在过去一年中翻了一番,大约 50% 的美国手机和平板电脑用户知道他们可以向谷歌提问,其中三分之一的人实际上会这样做。
这也就是说,尽管谷歌不会透露语音搜索的数量,但谷歌新闻团队向我保证,数量非常多。
除了每年几百次算法迭代之外,搜索多年来基本保持不变。但是让人们足够自信地与设备对话一直是一个挑战。
高级研究员 Françoise Beaufays 致力于开发语音搜索背后的语音识别引擎,她表示,采用率的提高是因为该功能现在运行得更好。
Beaufays 说:“当我们开始进行语音识别时,用户并不完全自信。他们在用,但你能感觉到他们有所犹豫,技术不像现在这样好。快进到现在,人们非常乐意通过语音在办公室里完成任何事情。”
Beaufays 语速很快,带有法国口音,并且是三语人才——除了精通神经网络架构。她曾领导语音团队,刚刚淘汰了服务中用于识别声音的旧引擎,并用一种新的、更先进的系统取代了它,该系统使用一种新的循环神经网络。
要让机器理解语音,它首先需要学会单词和短语听起来像什么。这意味着需要大量音频文件。这些文件由算法处理,算法会创建一个巨大的图,其中声音与哪些声音、单词和短语相关联。当将一段音频片段呈现给计算机时,它会通过将音频波形推过图来分析片段,试图找到能最好地解释该音频的路径。
Beaufays 说:“这条路径最终会说‘我们经历了这一系列声音,然后映射到这一系列单词,这构成了一个句子。’”
但所有这些都依赖于最初的音频文件,这被称为训练数据。这些训练数据实际上是由数百万个真实的谷歌用户语音搜索组成的。每当您进行语音搜索时,音频都会上传到谷歌服务器,如果您选择允许谷歌使用它,它就可以集成到用于训练机器的剪辑库中。
但在使用之前,数据会经过几个步骤。首先(对您来说最重要的是),它会清除所有您的信息。这意味着时间戳、位置数据、您的用户配置文件,所有信息。然后,原始波形会被发送给人工转录员,因为算法需要可靠的文本来与剪辑关联。每个剪辑都需要这些元数据,一个“糟糕”的剪辑实际上只是一个未正确转录的剪辑。甚至还有研究人员添加人工噪音的情况,以便机器能够理解在不同情况下不同单词的含义。
Beaufays 强调,这是一个选择加入的程序。这一点很重要,考虑到谷歌不断积累关于世界和我们生活的更多信息时,经常出现的(合理的)隐私问题。但如果您不想让谷歌使用您的声音,您不必允许它。此外,还有删除您的搜索记录的方法。
但这些技术使语音搜索更加有效。据谷歌称,两年前的错误率是 25%,这意味着四分之一的搜索是错误的。现在,这个数字已降至 8%。
但是当谷歌无法在您的数据上进行训练时,会发生什么?
智能收件箱
上周,谷歌宣布,它开始在其电子邮件中使用机器学习(如果您使用 Inbox 应用,该应用独立于 Gmail),而且,根据 Gmail 产品总监 Alex Gawley 的说法,它确实是基于 TensorFlow 构建的。
Gawley 说:“我们开始看到我们研究团队构建的神经网络的一些强大之处。也许我们不仅能帮助理解和组织,还能帮助完成一些事情,比如写邮件。”
该功能称为智能回复,基本上是一个循环神经网络读取您的电子邮件,然后将其交给第二个神经网络,后者生成三个可能的回复。您选择一个,然后邮件就会发送。但电子邮件与照片一样敏感,甚至在某些情况下更敏感。
谷歌没有人会阅读您的电子邮件,这一点很重要。然而,关于您选择哪个回复的数据确实会被发送回来,以告知全球模型。这就是它学习的方式。从那里,研究人员可以要求机器回答某些问题,并从中了解神经网络中可能需要修复的内容。软件对每个人来说也是一样的,这是
智能回复还让我们得以一窥谷歌内部如何构建机器学习产品。Inbox 团队在内部部署了这项功能,以测试并向机器提供一些关于对错的想法,这个过程称为“内部测试”(dogfooding)。(这个短语来自“吃自己的狗粮”的想法,是科技界奇特的一个例子。)
整个团队都在使用它,并记录错误,并提供越来越多的信息供其学习。当应用程序在受控环境中行为正确并可以扩展时,就会发布。
内部测试使研究人员有机会在神经网络接触海量数据时预测潜在的错误。例如,起初智能回复想告诉每个人“我爱你”。但这仅仅是因为在个人邮件中,“我爱你”是一个非常常见的短语,所以机器认为它很重要。
所有这一切都是为了让您的工作更轻松——这正是公司大部分产品(尤其是 Google Now,谷歌世界的个人助理)的目标。该团队的口号是“在正确的时间提供正确的信息”。Google Now 负责人 Aparna Chennapragada 表示,在构建到平台时,必须认真考虑机器智能,以补充人类大脑。
Chennapragada 说:“您想选择对人类来说困难、对机器来说容易的问题,而不是反过来。这是关于让技术为您承担繁重的工作,而不是自己去做。”
目前,该产品只是在探索如何利用这些方法让您的生活更轻松。Chennapragada 将其比作五年前语音识别研究的水平——还可以,但并非每次都能成功。
他们现在正在研究如何利用三种不同类型的数据为您提供零碎的信息。他们认为手机是“部分注意力设备”,而理想的服务不应让您信息过载。
Chennapragada 说:“如果您看看我们每个人如何使用手机,那是在您生活中的事情之间。您正在寻找的是一小块信息。我们考虑的一个问题是,我们如何能在不打扰您的工作的前提下,一直主动为您服务。”
这是智能手机中机器智能的最终目标:真正的数字个人助理,最终具有预测性且知识渊博——您天生就缺乏的那部分大脑。
因此,要实现这一点,您的手机需要有关您的数据:您的日程安排、您搜索的内容、您听的音乐以及您去过的地方。这是最容易获取的信息,因为它已经存在于设备上。
但是,当您将这些个人信息与谷歌的知识图谱(Knowledge Graph,稍后会详细介绍)中的世界知识相结合,并从其他用户那里获取数据时,整个世界就会呈现在您的指尖。您可能不知道如何导航机场,但您的手机知道。
谷歌利用大量用户数据来衡量路况是另一个例子。通过从高速公路上的手机匿名提取位置数据,谷歌可以知道汽车的行驶速度比平时慢。同样,它也能知道餐厅或咖啡店何时生意兴隆。
Google Now 代表了谷歌处理机器智能的方式。他们意识到,能够翻译并告诉您图片中有什么的通用智能模型还需要很多年才能实现,所以在此期间,他们正在创建一个和谐工作的工具集,以提供尽可能最佳的体验。
整理世界的知识
好的,我提到 Google Now 与知识图谱(KnowledgeGraph)协同工作。那是什么?
谷歌研究主管 John Giannandrea 于 2010 年加入谷歌。他创立了一家名为 Metaweb 的公司,该公司能够关联互联网上的文本和对象。这与搜索有着逻辑上的联系——不仅是找到事物,更是找到相似的信息片段。在此之前,他担任 Netscape 的首席技术官时就已经处理过这个问题。(还记得Netscape吗?)
但这一切都体现在知识图谱中,它于 2012 年首次亮相,用于在您搜索事实时自动弹出的信息和文本片段。如果您搜索“《Popular Science》是什么时候成立的?”,谷歌会提供答案(即 1872 年)。
这是谷歌不仅对互联网进行编目,还使其对用户更易于访问和更有用的方式。这也是人工智能首次渗透到主要产品搜索中。自那时以来,谷歌已将 15% 的日常搜索流量分配给了一个名为 RankBrain 的人工智能模型。该系统是搜索的常识——它旨在捕捉传统算法无法理解的查询。
除了集成到其核心搜索算法和扩展到产品中,谷歌还着手进行一些“登月项目”。为此,他们依靠 Geoff Hinton。
Hinton 是人工智能领域最杰出的思想家之一——他经常与Facebook 的 Yann LeCun、谷歌的 Andrew Ng 和 Yoshua Bengio 等高级研究员并列。(事实上,LeCun、Hinton 和 Bengio 在五月份的《自然》杂志上发表了一篇关于深度学习的评论,这篇评论就像是人工智能的字面教科书。)
与 Hinton 交谈就像与一个生活在五年后的人交谈。我们的谈话集中在将文档转化为思想向量,以便机器能够理解和记住长版本,并逆向工程我们大脑的学习算法。
例如,如今许多计算机程序通过查找文档中单词的字典定义和语法来粗暴地解决分析文本文档含义的问题。但是,要像人类一样理解文档,计算机理想情况下应该能够将文档分解为一系列独立的思想。
Hinton 说:“谷歌很希望能处理一个文档,并弄清楚它的推理是什么,文档在说什么,以及一个想法是如何从前面的想法中产生的。如果我们能开始这样做,那么就能更好地回答查询,因为它确实阅读并理解了文档。”
当被问及为什么我们还没有这样做时,Hinton 说,如果我们试图将理解能力与大脑相匹配,那是一个规模问题。研究人员现在使用的人工神经网络的复杂性远不及我们的大脑,即使在目前的极限范围内进行扩展。我们拥有的最好的可能拥有数亿个可以操纵的权重(LeCun 用一个带有大量旋钮的黑盒子来比喻调整权重)。但 Hinton 解释说,我们的大脑有 100 万亿个——那是 10 万倍的信息。
面对规模上的巨大差距,Hinton 仍然乐观地认为,这一轮人工智能研究不会像过去那样逐渐消失(人工智能研究曾经历过“冬天”,进展不如预期,投资也随之减少)。一个重要因素是越来越流行的思想向量的概念,如前所述。但对 Hinton 来说最令人欣慰的是过去五年的进展,尤其是物体识别和语音识别。这些问题过去常被认为过于复杂,而现在在标准化测试上的错误率已大大降低。
Hinton 说:“它们正在接近人类水平的表现。并非在所有方面,但例如物体识别。几年前,计算机视觉领域的人会告诉你‘不,你很多年都无法达到那个水平。’所以这是乐观的原因。”
但是,无论机器如何出色地补充或模仿人脑,如果普通人不知道如何使用它,那都毫无意义。这就是谷歌统治人工智能的计划——让它尽可能简单。虽然幕后 machinations 复杂且动态,但最终结果是普遍可用的工具,并且如果您愿意,还可以改进这些工具。
Google Now 的 Chennapragada 说:“魔法和神秘之间有一条细线。而我们希望站在正确的一边。”