谷歌 I/O 人工智能更新概览 | 流行科学

谷歌今日召开了年度 I/O 开发者大会，发布了 Pixel 新手机、圆形 Pixel Watch 等硬件，甚至还预告了可在增强现实中实时显示语言翻译的未来感眼镜。他们还宣布了新功能，例如即将推出的 Google Docs 摘要选项（可视为 AI 生成的“简而言之”）以及一个还可以存储数字身份证或疫苗接种卡的 Wallet 应用。

值得注意的是，这家科技巨头还强调了人工智能如何帮助他们在包括 Translate、Search、Maps 等在内的多项服务和应用中构建新功能。以下是用户可以期待的即将推出和未来将有的更新。

翻译

谷歌在语言模型方面的工作使其能够扩展其翻译能力。谷歌表示，将为 Google Translate 增加 24 种新语言，包括博杰普尔语、林加拉语和克丘亚语。除了这些新语言，谷歌还发布了研究，介绍了如何利用高质量的单语数据集为没有大量翻译数据集的语言构建机器翻译系统。他们称这项技术为“零样本机器翻译”。

[相关：谷歌的这项新 AI 工具可能会改变我们的在线搜索方式]

这项技术可以在不需要详尽的传统翻译词典的情况下生成翻译。根据一篇博文，为了实现这一点，他们训练了一个语言模型，通过“MASS 任务”从单语文本中“直接学习资源稀缺语言的表示”，其中解决任务要求模型建立“对所讨论语言的复杂表示，并对其单词如何与其他单词在句子中关联形成深刻理解”。

除了现有的用于生成视频文本字幕的语音识别模型外，谷歌还在 YouTube 上为 16 种语言推出自动翻译字幕。此功能将于下个月面向乌克兰语内容推出，作为提高战争准确信息可访问性的一部分。

搜索

在过去的几年里，Google Search 推出了各种不同的工具，使人们能够以不同的方式更轻松地找到所需信息，包括语音搜索、哼唱搜索、Google Lens，以及最近的多重搜索，后者允许用户将照片与文本提示结合起来进行查询。多模态技术还利用文本、音频和视频来创建 YouTube 视频中自动生成的“章节”。

[相关：谷歌正在对如何提供健康信息进行重大更新]

今天，谷歌推出了一项名为“附近的”搜索功能。其工作原理如下：在 Google 应用中，用户可以拍摄一张照片或上传一张截图，然后添加“附近的”文本来查找可能拥有他们正在寻找的服装、商品或食物的本地零售商和餐馆。例如，如果您正在修理一个漏水的水龙头，您可以拍下故障零件的照片，并在附近的五金店找到它。

再举一个例子，如果您在网上看到一道看起来很美味的菜，想尝试一下，您可以拍下它的照片，谷歌可以告诉您那是什么，并向您推荐提供该菜品的评分很高的本地餐馆，可以通过外卖点餐。谷歌多重搜索将“理解这道菜的细微差别，将其与您的意图（您正在寻找本地餐馆）相结合，然后扫描地图上的数百万张图片、评论和社区贡献，以找到附近的本地场所，”谷歌搜索体验负责人 Nick Bell 在一次新闻发布会上解释说。通过多重搜索获得的本地信息将于今年晚些时候在全球范围内以英语提供，并会随着时间的推移扩展到更多语言。

[相关：谷歌即将更好地理解复杂问题]

谷歌还预告了另一项正在开发中的功能，名为“场景内搜索”或“场景探索”。通常，谷歌搜索处理的是单帧捕捉到的物体，但场景探索将允许用户环绕摄像头移动，并获得摄像头视野内多个物体的即时信息。想象一下您在一家书店，使用此功能，您将能够看到叠加在您面前的书籍上的信息。“为了实现这一点，我们将计算机视觉、自然语言理解与网络知识和设备端技术结合起来，”Bell 说。

地图

Google Maps 于 2005 年作为一款简单的导航应用推出，但过去几年，它一直在努力“重新定义地图的含义”，Google Maps 副总裁 Miriam Daniel 在 I/O 会前的新闻发布会上表示。其中包括添加有关燃油效率高的路线（现已在美国和加拿大推出，并将于今年晚些时候扩展到欧洲）、目的地繁忙程度以及餐厅备注（例如是否有户外座位）等信息。

此外，谷歌在 3D 地图和计算机视觉方面的工作使其能够通过融合数十亿张官方收集和用户生成的图片，为街景和航拍图像增添更多深度和真实感。地图中的“沉浸式视图”将展示地标（如大本钟）的详细建筑近景，以及通过“时间滑块”显示不同时间段的景象，而不是用不同高度的灰色方块代表建筑。“沉浸式视图”还将整合天气和交通信息，告知您该地方可能是什么样的。用户还可以滑到底层街道，在决定访问之前，可以虚拟地进入餐厅或其他空间，感受一下那里的氛围。此功能将在智能手机和其他设备上提供。

[相关：Google Maps 已暂时禁用在乌克兰的关键功能]

“沉浸式视图”定于今年年底在洛杉矶、伦敦、纽约、旧金山和东京的地标、街区、餐厅、热门场所和地点推出，更多城市即将到来。

Google Maps 团队宣布，他们还将为第三方开发者发布基于 Live View 技术的 ARCore Geospatial API。Live View 和相应的全球本地化软件已在 AR 中使用，用于在现实世界中叠加箭头和方向指示，这些可以通过实时摄像头流观看。开放此 API 可以使开发者将这项技术集成到他们自己的应用中。Daniel 指出，一些早期开发者已经找到了不同的应用该技术的方式。例如，微出行公司 Lime 已使用此 API 帮助伦敦、巴黎、特拉维夫、马德里、圣迭戈和波尔多等地的通勤者查找其电动滑板车和电动自行车的停车位。

助手

谷歌的一个重要研究领域是自然语言处理——即如何让机器理解人类语言的细微差别和不完美之处（充满“嗯”和停顿），并进行对话。他们的一些发现有助于改进 Google Assistant。“我们非常专注于 AI 模型，并意识到我们需要 16 个不同的机器学习模型处理超过 100 个信号，”谷歌语音产品经理 Nino Tasca 在一次新闻发布会上说。“这包括一切，如距离、头部方向、注视检测，甚至用户对短语的意图，只是为了了解他们是否真的在与 Google Assistant 说话。”

今天，谷歌在其 Nest Hub Max 设备上推出了一项名为“Look and Talk”的功能。如果用户选择启用，他们只需看着设备即可激活 Google Assistant，无需说“Hey, Google”，即可收听他们想要的内容。此功能使用 Face Match 和 Voice Match 技术来识别谁在说话，并且这些交互的视频是在设备上处理的（就像使用 Tensor 芯片一样）。“Look and Talk”本周将在 Android 上推出，并很快在 iOS 设备上推出。

下方观看完整主题演讲