

2024年的机器人比它们那些只有单臂在工厂工作的先辈要复杂得多。现代机器人可以奔跑,跳跃,劈叉,甚至进行基本的对话。与此同时,尽管经过了几十年的技术进步和数十亿美元的投资,即使是最先进的机器人系统,在执行许多人类习以为常的日常任务时仍然举步维艰,比如叠衣服或堆叠积木。讽刺的是,机器人做我们认为容易的事情却相当糟糕。至少目前是这样。机器人训练的新进展从像ChatGPT这样非常流行的大型语言模型中获得了一些灵感,这可能会……最终改变这一点。
机器人无处不在,但它们的能力有限
机器人在日常生活中越来越普遍。几十年来,工厂和制造企业一直在使用简单的单任务机器人手臂来快速提高产量。在物流领域,亚马逊和沃尔玛等大品牌已经让更先进的机器人与人类一起搬运重物和分拣包裹。DHL使用波士顿动力公司的“Stretch”机器人来抓取盒子并将其放到传送带上。一些快餐店,如Denny's,甚至尝试使用多层配送机器人将餐盘送到餐桌。Chipotle也有自己的AI引导的牛油果去核原型机。仅亚马逊据报道,其运营中已经拥有超过75万台机器人,而且这个数字还在不断增长。
所有这些系统在各自的领域都令人印象深刻,但在许多平凡的任务上,它们都无法与人类匹敌。一个拥有合适软件的先进计算机模型可以轻易地击败最娴熟的国际象棋选手,但要让同一个机器人从一堆杂乱的棋子中挑出一个棋子,则需要一项工程壮举。咖啡制作机器人很可能比人类咖啡师更快地倒出咖啡,但如果被要求在房间里找到一杯又冷又旧的咖啡并将其“重新加热”,它就会陷入困境。
“机器人可以去火星,但它们却捡不了杂货”
总的来说,机器人擅长人类难以做到的许多事情,而对人类轻易做到的许多事情却很糟糕。机器人领域的专家将这种普遍观察称为“莫拉维克悖论”,这一说法最早可以追溯到1988年卡内基梅隆大学教授汉斯·莫拉维克的一本书。近四十年过去了,这个悖论仍然令人沮丧地准确。这到底是怎么回事?机器人学专家、加州大学伯克利分校教授肯·戈德堡在去年的TED演讲中试图解释这些“笨拙的机器人”是如何产生的。

戈德堡表示,机器人面临的三个主要挑战是感知、控制和物理。在感知方面,机器人依靠摄像头和其他传感器(如激光雷达)来“看到”周围的世界。尽管这些工具在不断改进,但它们仍然不如人眼可靠。这就是为什么所谓的自动驾驶汽车在遇到强烈的闪光灯时会犯错,或者像旧金山去年发生的那样,遇到车顶上放着橙色交通锥的其他车辆。与此同时,据《纽约时报》最近的一篇报道,像亚马逊的Sparrow这样的现代仓库分拣机器人,在有限的狭窄范围内表现得相当出色,但据报道在“目标式拣选”方面遇到困难。
[相关:研究人员折磨机器人以测试人类同情心的极限]
“亚马逊的订单可以是任何东西,从枕头、书、帽子到自行车,”剑桥大学机器人学教授文哉井田(Fumiya Iida)在一份声明中说。“对人类来说,拿起一件物品而不掉落或压碎它通常很容易——我们本能地知道要用多大的力气。但这对于机器人来说非常困难。”
这就引出了戈德堡指出的第二个问题:控制。尽管人类和许多动物(如狗)经过数百万年的进化,已经将我们的视觉与肢体同步,但机器人却没有这种优势。机器人一部分的摄像头和传感器常常会与负责操作和物体的机械臂或夹爪不同步。这种不匹配可能导致机器人突然掉落物品。这也是为什么给Denny's顾客端上滋滋作响的鸡蛋培根盘子的机器人,实际上只把盘子送到桌子。人类服务员仍然需要实际拿起盘子并递给顾客。
但这并没有阻止一些人试图将这些能力想象出来。今年早些时候,在华纳兄弟影城举行的一场备受瞩目的新闻发布会上,特斯拉备受吹捧的“Optimus”人形机器人在这片区域里漫步,查验身份证,调制鸡尾酒,并与客人交谈。事实上,这些“自主”机器人的真实程度,与它们周围的假好莱坞布景一样。活动后的报道显示,机器人实际上是由附近的特斯拉工人远程操控的。但尽管这种夸张的表演艺术对于马斯克来说是司空见惯的项目,但也指出了机器人领域面临的一个更大的问题。Optimus在活动中未能完成的任务——操纵物体和倒出简单的混合饮料——实际上对机器人来说是出了名的困难。
Optimus,请给我做一杯饮料。
— Robert Scoble (@Scobleizer) 2024年10月11日
这并非完全是人工智能。有人类在远程协助。
这意味着明年的AI日,我们将看到Optimus的学习速度有多快。图片.twitter.com/CE2bEA2uQD
最后一个问题,物理,是人类和机器人都无法真正控制的。在戈德堡的讲座中,他举了一个机器人推着一个瓶子在桌子上滚动的例子。机器人每次使用的力量和推瓶子方式都一样,但它最终总会出现在略微不同的位置。这种变化部分取决于瓶子在桌面上滑动时的微观表面形貌。人类每天都会遇到这些微小的变化,但我们通过经验本能地知道如何纠正它。
在大多数情况下,一旦机器人被要求执行超出其为之设计的狭窄测试环境之外的任务,它们就会开始挣扎。尽管人类可能会设法逃离一个随机的房间,但即使是高度移动的机器人也会感到困惑,并浪费时间在不合逻辑的地方(如地板和天花板)寻找门。讽刺的是,正是这些细微的差别比提起重物或太空旅行等看似更了不起的壮举,对机器人来说更难以处理。
“机器人可以去火星,但它们却捡不了杂货,”井田博士补充道。

教会机器人互相学习
这就是迄今为止普遍存在的困境,但目前研究人员正在致力于所谓的“通用机器人大脑”,他们希望能够借鉴近期大型语言模型的一些经验教训,并用它们来制造更具适应性的机器人。近年来,机器人领域的发展与软件和人工智能相比停滞不前,这主要是由于训练数据的不匹配。像OpenAI的GPT这样的大型语言模型之所以能够取得如此大的飞跃,是因为它们是在互联网上抓取的数万亿参数的文章、书籍、视频和图像上训练出来的。这是否合法仍在法庭上存在争议。
撇开法律问题不谈,在机器人训练数据方面,并没有真正的等同于互联网的东西。由于机器人是物理对象,收集它们执行任务的数据通常需要时间,并且通常在实验室或其他有限的空间进行。机器人也大多是特定任务的,所以从集装箱装载机收集的数据可能无助于改进从箱子里拣选物品的机器人。
但目前有几个团队正在尝试是否有可能将从多种不同类型机器人收集的数据汇集到一个统一的深度神经网络中,然后用它来训练新的、通用的机器人。其中一项名为RT-X项目的努力,正在由谷歌、加州大学伯克利分校以及北美、欧洲和亚洲的32个其他实验室的研究人员进行。这些研究人员已经创建了他们称之为世界上“现存最大的真实机器人动作开源数据集”。
该数据集包括机器人完成约500种不同类型任务的真实体验。然后,研究人员可以利用深度学习,在一个模拟环境中,利用该数据集来训练机器人。戈德堡将这类过程描述为类似于机器人“做梦”。在RT-X项目中,机器人能够识别与其特定目标相关的训练数据,例如改进机械臂,并利用这些数据来改进自身。谷歌研究员Sergey Levine和DeepMind科学家Karol Hausman在《IEEE Spectrum》上撰文,将此比作人类利用同一大脑学习骑自行车或开车。
“研究人员写道:“在RT-X数据集上训练的模型可以简单地识别它正在控制的是哪种机器人,这取决于它从机器人自己的摄像头观察中看到的内容。”

希望更通用的“大脑”能够随着收集到的数据增多而扩展,并可能使Figure和Tesla等公司生产的新型人形机器人能够更好地适应环境。我们已经开始瞥见它可能的样子。上个月,波士顿动力公司发布了一段视频,展示了其人形Atlas机器人在一个演示房间里定位、抓取并移动发动机罩。
据波士顿动力公司称,Atlas能够完全自主地完成这些任务,没有任何“预设或远程操控的动作”。关键是,演示甚至显示Atlas有时会犯错,但随后会迅速地在现场进行调整和纠正。
当然,它现在可能还不能制作内格罗尼鸡尾酒或叠衣服,但它为行业的发展方向提供了一个 glimpse(一瞥)。