2010 年 6 月 22 日傍晚,美国网球明星约翰·伊斯内尔(John Isner)与法国选手尼古拉·马胡(Nicolas Mahut)在温布尔登开始了一场艰苦的比赛,这场比赛将成为该运动史上最长的比赛。这场马拉松式的比赛持续了 11 个小时,横跨了连续三天。尽管伊斯内尔最终在第五盘以 70-68 获胜,但当时在场的观众有一半半开玩笑地想,这两个人是否会被永远困在这块球场上。
一场类似无休止的球拍较量目前正在离全英俱乐部向南一小时车程的地方展开——在谷歌 DeepMind。DeepMind 以其开创性的人工智能模型而闻名,这些模型在国际象棋和围棋方面已超越了人类顶尖选手,现在它拥有一对机器人手臂,正在进行一场无休止的乒乓球比赛。这个始于 2022 年的持续研究项目的目标是让两个机器人通过竞争不断相互学习。正如伊斯内尔最终调整了自己的比赛以击败马胡一样,每个机器人手臂都使用人工智能模型来改变策略并进行改进。
但与温布尔登的例子不同的是,机器人无法达到一个最终比分来结束它们的缠斗。取而
正如参与此事的两位研究人员本周在《IEEE Spectrum》博客中指出的那样,所有这些都是为了创造一个先进的、通用的人工智能模型,该模型可以作为人形机器人的“大脑”,这些机器人有一天可能会在现实世界的工厂、家庭及其他地方与人类互动。DeepMind 和其他地方的研究人员希望,如果这种学习方法能够规模化,它可能会为机器人领域带来一个“ChatGPT 时刻”——让该领域迅速从笨拙、笨拙的金属块转变为真正有用的助手。
DeepMind 高级技术工程师 Pannag Sanketi 和亚利桑那州立大学教授 Heni Ben Amor 在《IEEE Spectrum》上写道:“我们乐观地认为,这方面的持续研究将产生更强大、更适应性强的机器,它们能够学会操作我们这个非结构化世界所需的各种技能,并安全有效地运行。”
DeepMind 如何训练乒乓球机器人
对这些挥拍机器人的初步灵感来自于寻找更好、更具可扩展性的方法来训练机器人完成多种任务的愿望。尽管波士顿动力公司的 Atlas 等笨重的人形机器人在过去十年里能够完成令人恐惧的惊人特技,但其中许多特技都是脚本化的,并且是人类工程师精心编码和微调的结果。这种方法适用于技术演示或有限的单用途场景,但在设计用于在仓库等动态环境中与人一起工作的机器人时却力不从心。在这些环境中,机器人不仅仅知道如何将箱子装到板条箱上是不够的——它还需要适应人群和不断引入新的、不可预测变量的环境。
事实证明,乒乓球是一种测试不可预测性的有效方法。自 20 世纪 80 年代以来,这项运动一直被用作机器人研究的基准,因为它集速度、响应能力和策略于一身。要在这项运动中取得成功,球员必须掌握一系列技能。他们需要精细的运动控制和感知能力来追踪球并拦截球——即使球以不同的速度和旋转速度飞来。同时,他们还必须做出关于如何击败对手以及何时承担经过计算的风险的战略决策。DeepMind 的研究人员将这项运动描述为“受限但高度动态的环境”。
DeepMind 使用强化学习(其中人工智能会因做出正确决定而获得奖励)来教会机器人手臂这项运动的基础知识。起初,两只手臂被训练成进行合作性对打,因此没有一方有理由去争夺得分。最终,经过工程师的一些微调,团队开发出了两个能够自主进行长时间对打的机器人智能体。
通往无限游戏之路,从人类那里学习
从那时起,研究人员调整了参数,并指示手臂争取赢得比赛。他们写道,这个过程很快就让那些经验尚浅的机器人不堪重负。这些手臂会在比赛中获取新信息并学习新的战术,却会忘记它们之前做过的一些动作。结果是比赛时间很短,通常以一个机器人发出一个无法回击的制胜球而告终。
有趣的是,当机器人与人类对手比赛时,它们的进步出现了明显的提升。起初,各种水平的人类玩家在保持球的运动方面表现更好。这对于提高机器人的表现至关重要,因为它让它们接触到更多样化的击球和打法供其学习。随着时间的推移,两台机器人都在进步,不仅提高了它们的稳定性,还提高了它们打出更复杂回合的能力——融合了防守、进攻和更大的不可预测性。总而言之,这些机器人在与人类进行的 29 场比赛中赢得了 45% 的比赛,其中包括以 55% 的胜率击败中级玩家。
从那时起,现在经验丰富的 AI 机器人再次相互较量。研究人员表示,它们在不断进步。部分进展来自于一种新的 AI 教练。DeepMind 一直在使用谷歌 Gemini 的视觉语言模型来观看机器人比赛的视频,并就如何更好地赢得比赛提供反馈。在“Gemini 教练”演示视频中,机器人手臂会根据“将球打到最右侧”和“打一个靠近网前的浅球”等 AI 生成的指令调整其打法。
更长的回合有一天可能会带来更有用的机器人
DeepMind 和其他公司的希望是,相互竞争的智能体将有助于改进通用人工智能软件,使其更接近于人类学习驾驭周围世界的方式。尽管人工智能在基本编码或国际象棋等任务上可以轻松超越大多数人类,但即使是最先进的人工智能机器人也难以像蹒跚学步的幼儿那样稳定地行走。对人类来说本来很容易的任务——比如系鞋带或在键盘上打字——对机器人来说仍然是巨大的挑战。机器人领域称之为莫拉维克悖论(Moravec's paradox)的困境,仍然是创造一个真正能在家中提供帮助的《杰森一家》式“罗茜”机器人的最大障碍之一。
但有一些早期迹象表明,这些障碍可能正在开始缓解。去年,DeepMind 终于成功教会了一个机器人系鞋带,这曾被认为需要很多年才能完成。(它是否能很好地系鞋带是另一回事。)今年,波士顿动力公司发布了一段视频,展示了其新款、更轻便的自主 Atlas 机器人在模拟制造工厂中装载材料时,能够实时调整以纠正其错误。
这些可能看起来微不足道——它们确实是——但研究人员希望,像乒乓球机器人正在训练的那种通用、多用途的人工智能系统,可以帮助这些进步更频繁地发生。与此同时,DeepMind 的机器人将继续挥拍,对它们永无止境的第五盘比赛之旅浑然不觉。