观看两个微小、人工智能驱动的机器人踢足球

谷歌 DeepMind 的双足机器人经过多年准备后展开对决。
Two robots playing soccer
深度强化学习让一对机器人得以互相比赛。图片来源:Google DeepMind / Tuomas Haarnoja

谷歌 DeepMind 现在能够训练微型、现成的机器人登上足球场进行角逐。在一篇今天发表于《Science Robotics》的论文中,研究人员详细介绍了他们最近为教授双足机器人这项简化的运动所做的努力,他们采用了被称为深度强化学习(deep RL)的机器学习子集。该团队指出,尽管过去的类似实验创造了极其敏捷的四足机器人(例如:波士顿动力公司的 Spot),但针对双足、人形机器人的研究则少得多。然而,新的机器人盘带、防守和射门的视频展示了深度强化学习可以成为人形机器多么优秀的教练。

尽管谷歌 DeepMind 的最终目标是承担气候预测材料工程等大规模任务,但它也可以在国际象棋围棋甚至《星际争霸 II》等游戏中完胜人类对手。但所有这些策略性操作都不需要复杂的身体移动和协调。因此,尽管 DeepMind 可以研究模拟足球运动,却一直未能将其转化为实际的比赛场地——但这种情况正在迅速改变。

为了打造这些微型梅西,工程师们首先在计算机模拟中开发并训练了两个深度强化学习技能集——从地面站起来的能力以及如何对未经训练的对手进球。然后,他们通过结合这些技能集,并在随机配对经过部分训练的自身副本进行对抗,从而在虚拟环境中训练其系统进行完整的单对单足球比赛。

[相关:谷歌 DeepMind 的人工智能预测模型已超越“黄金标准”模型。]

研究人员在其论文引言中写道:“因此,在第二阶段,智能体学会了组合先前学到的技能,并将它们优化以完成完整的足球任务,并预测对手的行为。”他们随后指出,“在比赛中,智能体能够流畅地在所有这些行为之间切换。”

得益于深度强化学习框架,DeepMind 驱动的智能体很快学会了改进现有能力,包括如何踢球射门、阻挡射门,甚至通过用身体作为屏障来防守自己的球门,抵御进攻的对手。

在一系列使用经过深度强化学习训练的机器人进行的单对单比赛中,这两个机械运动员的行走、转向、踢球和站起来的速度都比工程师仅为其提供脚本化基础技能快得多。而且,这些改进并非微不足道——与不可适应的脚本化基线相比,机器人的行走速度提高了 181%,转向速度提高了 302%,踢球速度提高了 34%,摔倒后站起来所需的时间减少了 63%。此外,经过深度强化学习训练的机器人还展现出了新的、涌现出的行为,如用脚尖旋转和原地打转。这些动作如果预先编写脚本将极其困难。

Screenshots of robots playing soccer
图片来源:Google DeepMind

在 DeepMind 驱动的机器人参加机器人世界杯之前,还有一些工作要做。在这些初步测试中,研究人员完全依赖基于模拟的深度强化学习训练,然后将这些信息转移到物理机器人上。未来,工程师希望将虚拟和实时强化训练结合起来。他们还希望扩大机器人的规模,但这需要更多的实验和微调。

该团队认为,将类似深度强化学习的方法应用于足球以及许多其他任务,可以进一步提高双足机器人的运动能力和实时适应能力。不过,你可能暂时还不需要担心 DeepMind 的人形机器人会出现在全尺寸足球场上,或者进入劳动力市场。同时,考虑到它们不断进步,是时候为它们吹响哨音了。

 

更多优惠、评测和购买指南

 
Andrew Paul Avatar

Andrew Paul

特约撰稿人

Andrew Paul 是 Popular Science 的特约撰稿人。


© .