互联网搜索的未来是什么样的?谷歌将其设想为更像是在与朋友进行一次随意的对话。
虽然谷歌的搜索引擎已经上线二十多年,但驱动它的技术一直在不断发展。最近,该公司宣布了一项名为 MUM(多任务统一模型)的新人工智能系统。MUM 旨在在全球范围内理解人类语言的细微之处,这可以帮助用户更轻松地找到他们搜索的信息,或者让他们提出更抽象的问题。
谷歌已经在独立任务中使用了 MUM 来了解人们提及 COVID 疫苗 的不同方式,但表示新技术尚未集成到其搜索系统中。虽然目前还没有关于该功能何时在实际搜索中推出的明确时间表,但团队正在积极为 MUM 完成其他一次性任务。
以下是关于 MUM 是什么、它与以往有何不同以及更多信息。
解决 COVID 疫苗名称难题
今年早些时候疫苗上市时,谷歌搜索部副总裁 Pandu Nayak 和同事设计了一项“体验”,当用户搜索 COVID 疫苗时,可以提供有关 COVID 疫苗的信息——在哪里可以获得、如何起作用以及在哪里可以找到。该体验将所有这些基本且相关的信息拼接在一起,并将其固定在搜索结果第一页的顶部。但首先,团队需要对其进行编程,使其仅在查询与 COVID 疫苗相关时才弹出。这可能会成为一个问题,因为世界各地的人们可能会以不同的方式,用不同的名称提及 COVID 疫苗。
去年,团队花了数百小时翻阅资料,以识别 COVID 本身的所有不同名称。但今年,他们有了 MUM。“我们能够用 MUM 进行一个非常简单的实验,几秒钟内就为 50 种不同语言的 17 种不同疫苗生成了 800 多个名称,”Nayak 说。“我们有许多语言任务需要解决,无论是分类、排名、信息提取,还是其他许多任务。短期内,我们预计将使用 MUM 来改进其中的每一项。不是说这会带来一个新功能或新体验,而是现有的功能和体验会变得更好。”
在 Google I/O 上认识 MUM
我们在春季的 Google I/O 开发者大会上首次听说 MUM,当时谷歌高级副总裁 Prabhakar Raghavan 发布了它。
这项新技术是谷歌在过去十年中一直在改进和调整的基于机器学习的搜索的自然演进。谷歌声称 MUM 能够获得对世界的深刻了解,理解和生成语言,并同时训练 75 种语言。内部还在进行试点测试,以确定它是否能够实现多模态——即能够同时理解文本、图像和视频等不同形式的信息。
所有这些复杂性都可以通过在会议和博客文章中提出的一个简单示例来说明。假设你问谷歌:“我爬了亚当斯山,现在想在明年秋天爬富士山,我需要做些什么不同的准备?”这是大多数人今天不会费心输入的搜索查询类型,因为用户知道这通常不是在网上搜索信息的方式。
“这是你会随便问朋友的一个问题,但今天的搜索引擎无法直接回答,因为它非常口语化和微妙,”Raghavan 在 I/O 大会上解释道。但理想情况下,MUM 会理解你想比较两座山,并且也理解“准备”可能包括健身训练以适应地形和适合秋季天气的登山装备等内容。它将能够剖析你的问题,将其分解为一组查询,了解你问题的每个方面,然后将其重新组合起来。用户可以点击以了解有关问题各方面搜索结果的更多信息,还可以获得一个总体文本,解释如何回答了原始查询。
像这样的体验是 MUM 工程师的长期目标,而实现该目标所需的时间尚不清楚。从长远来看,谷歌的工程师们正在训练 MUM 来识别词语和图像之间的关系,并且进展顺利。Nayak 说,当他们要求 MUM 为他们提供的一段新文本(例如西伯利亚哈士奇)生成图像时,它“做得相当出色”。
搜索简史
自 1998 年成立以来,谷歌一直在不断绘制网络地图,收集海量内容,并创建一个索引来组织所有信息。
你可以把谷歌的搜索索引想象成一本书末尾的索引。它告诉你一个特定的词出现在哪些页面上。只不过对于互联网,有两个重要的区别。一是,一本书可能只有 300 到 1000 页,与网络上的数万亿页相比,这不算多。第二个重要的区别是,对于书末的索引,你一次只查找一个词,而在网络上,你查找的是词语的组合。“由于这种规模和这种组合爆炸,我们每天都会收到来自世界各地的数十亿次查询,”Nayak 说。“令人惊叹的是,我们每天收到的搜索中,有 15% 是我们从未见过的。查询流中有惊人的新颖性。”
Nayak 补充说,这种新颖性部分归因于新的拼写错误方式,部分原因是世界在不断变化,人们会提出新的(有时是极其具体的要求)。
为了将所有可能的网络信息精炼到与你的查询真正相关的信息,谷歌使用算法对它认为最有用的页面进行排名,使用新鲜度、地点以及不同页面之间的链接等因素。Nayak 说:“到目前为止,最重要的因素类别与语言理解有关。“语言理解是搜索的核心,因为你需要理解查询的含义,你需要理解文档的含义,以及两者如何匹配。”
当然,软件无法像我们一样真正理解语言,包含其所有的微妙之处和细微差别。但是程序员可以开发各种策略来尝试近似我们理解语言的方式。就在 16 年多前,谷歌构建了同义词系统的第一个版本,该系统考虑了不同词在不同语境下有不同含义的事实。所以,“更改”在谈论笔记本电脑亮度时可能意味着“调整”。如果不理解这一点,许多相关页面会因为词语选择的变化而被排除在搜索结果之外。
大约十年前,该公司创建了知识图谱。其背后的想法是,查询或文档中的词语不仅仅是字符流,如果它们指代现实世界中的人、地点或事物,它们就可以有意义。“如果你不理解某个特定字符串的含义,那么你就没有完全理解这个词的意思,”Nayak 解释道。诸如人、地点、事物、公司等实体被放入数据库,知识图谱将它们之间的关系联系起来。它还编译了一个关于实体(如名人或地标)的必要快速事实的摘要。
例如,如果你搜索“玛丽·居里”,谷歌的知识图谱可以告诉你她的出生时间、地点、结婚对象、子女、就读的大学以及她的成名原因。这是一种在谷歌搜索后显示的页面列表之外便捷展示信息的方式。
机器学习升温
大约六年前,谷歌推出了其首个基于机器学习的搜索版本。然后,它根据深度学习社区在自然语言算法方面的不断研究,对它进行了改进,这些算法可以查看单词使用的上下文来理解其含义,并确定上下文的哪些部分需要关注。2019 年,谷歌为搜索引入了BERT架构。其训练算法基本上是一系列“填空”练习。你会取一个常用短语,屏蔽掉随机的词语,然后让网络预测这些词语是什么。它也被称为掩码语言模型。
[相关:谷歌如何称霸人工智能]
对于一个查询,比如“我能在药店给别人取药吗”,以前,搜索者会得到一个关于在药店取处方的结果。BERT 理解的不仅仅是取处方,而是为别人取处方,比如朋友或家人。“我们能够展示一个更相关的结果,因为它捕捉到了问题中的一些微妙之处,而我们之前无法处理,”Nayak 说。
展望未来,MUM 不仅能像 BERT 一样理解语言,还能生成语言。相比之下,MUM 比 BERT 大得多,功能也更强大(谷歌称其功能强大约 1000 倍)。MUM 在谷歌提供的所有不同语言的公共网络语料库的高质量子集上进行训练。搜索团队会移除低质量内容、成人内容、露骨内容和仇恨言论,因此 MUM 学习的语言在某种意义上是好的(希望如此)。通过同时用所有语言进行训练,它能够将拥有大量数据的语言的信息推广到数据较少的语言,从而填补数据较少区域的训练空白。
但 Nayak 承认,像 MUM 这样的大型语言模型确实存在挑战,团队正在积极解决这些挑战。“例如,一个问题是偏见。因为它是基于网络语料库训练的,所以人们担心它是否反映或加剧了网络中的偏见,”Nayak 说。Nayak 希望,它在高质量的语料库子集上进行训练这一事实,将消除一些最严重的偏见。谷歌继续使用搜索质量评估员和其他评估流程来检查其结果并寻找问题模式。“它不能解决所有问题,但它是一种重要的缓解措施。”
[相关:您的每个 Google 应用隐私设置指南]
MUM 是在谷歌一直在尝试的各种创新功能的基础上构建的,以使搜索更好。“今天,当人们来到搜索时,他们并不是带着脑子里已经形成好的查询来的。他们带着对生活中正在发生的事情的一些模糊意图来到搜索,”Nayak 说。“你必须把你这个模糊的需求,转化为一个或多个你可以向谷歌提出的查询,了解问题的不同方面,然后将其整合起来。”
像自动完成这样的功能在一定程度上帮助简化了搜索过程,但 MUM 可能会开启一系列新的可能性。“我认为所有搜索工具的真正问题在于,”Nayak 说,“因为它们是工具,所以:即使它不完美,它有用吗?”