

科技巨头谷歌及其子公司人工智能研究实验室 DeepMind 创造了一种基本的“人类到机器人”翻译器。他们将其描述为“同类首创的视觉-语言-动作模型”。两家公司在周五发布的两份单独的公告中表示,名为 RT-2 的模型通过语言和视觉输入进行训练,旨在将网络知识转化为机器人可以理解和响应的指令。
在一系列试验中,该机器人展示了其能够识别并区分不同国家的国旗、足球和篮球、泰勒·斯威夫特等流行偶像,以及红牛罐等物品。
谷歌 DeepMind 机器人部门负责人 Vincent Vanhoucke 在一篇博文中表示:“追求有用的机器人始终是一项艰巨的任务,因为能够处理世界通用任务的机器人需要能够处理高度可变环境中的复杂、抽象任务——尤其是在它从未见过的情况下。与聊天机器人不同,机器人需要‘接地’于现实世界及其能力……机器人需要能够在特定情境下识别一个苹果,将其与红球区分开,了解它的样子,最重要的是,要知道如何拿起它。”
这意味着,传统上训练机器人需要从头开始生成数十亿个数据点,以及具体的指令和命令。例如,让机器人丢垃圾的任务,就需要程序员明确地训练机器人识别垃圾、垃圾桶,以及如何执行拾取垃圾并丢弃的动作。
过去几年,谷歌一直在探索各种教授机器人执行任务的方法,就像你教人类(或狗)一样。去年,谷歌展示了一个机器人,它可以根据人类的自然语言指令编写自己的代码。谷歌旗下的另一个子公司 Everyday Robots 尝试使用一个名为 SayCan 的模型,该模型从维基百科和社交媒体中提取信息,将用户输入与预测的响应进行匹配。
[相关:谷歌正在测试一款能自主编程的新机器人]

RT-2 是在类似的前身模型 RT-1 的基础上开发的,RT-1 允许机器通过一系列基本推理来解释新的用户指令。此外,RT-2 还具备符号理解和人类识别相关的技能——谷歌认为这些技能将使其成为适用于人类中心环境的通用机器人。
有关机器人使用 RT-2 能做什么和不能做什么的更多细节,可以在 DeepMind 和谷歌在线发布的论文中找到。
[相关:人工智能的广阔世界的简单指南]
RT-2 还借鉴了视觉-语言模型 (VLM) 的相关工作,VLM 已被用于为图像添加字幕、识别图像中的对象或回答关于特定图片的问题。因此,与 SayCan 不同,RT-2 模型能够“看到”周围的世界。但为了让 VLM 能够控制机器人,需要为其添加一个输出动作的组件。这是通过将机器人可以执行的不同动作表示为模型中的 token 来实现的。这样,模型不仅可以预测用户查询的答案,还可以生成与之最相关的动作。
DeepMind 指出,例如,如果一个人说他们累了想喝点什么,机器人就可以决定去拿一瓶能量饮料给他们。