


上周,麻省理工学院 宣布了一项令人兴奋但又有些晦涩的突破——一项 新算法,名为 AMPS,它能让机器人团队更好地学习。它允许自主系统快速比较它们在各自行程中所观察到的信息,并形成一个统一的世界观。
如果我看起来似乎已经屈服于机器人报道中最糟糕的诱惑——即拟人化机器的冲动,并将一项独立的研究成果稀释成更容易消化、更广泛接受的浆糊——请耐心听我说。尽管其作者并没有称之为突破,但这项算法似乎就是如此。
AMPS 是 Approximate Merging of Posteriors for Symmetry(近似后验合并对称性)的缩写(指的是贝叶斯统计分析),将在 7 月份的不确定性人工智能会议上发表。该算法解决了一个非常具体的机器人问题。机器要在一个给定的环境中运行,就需要尽可能地分配语义标签。这些实际上是认知上的捷径。因此,一个带有合页和把手的矩形墙体部分不总是谜题,每次遇到都需要从头解决。它是一扇门,可以打开或关闭。而一组语义标签可以累加成更大的标签。一扇打开到一个有大型中央桌子(另一个标签)和一堆椅子(更多标签)的房间的门(标签),可能是一个会议室。
这种不受限制的标记对于自主机器人和人类一样重要。但不同的是,人们在标签的创建和识别方面通常更灵活。麻省理工学院航空航天学教授乔纳森·豪(Jonathan How)说:“作为人类,我们往往对事物的定义有一个相当明确的词汇。我们知道如何以一致的全局方式标记事物,或者通过阅读我们环境中的其他事物来识别它们。”因此,如果一个人进入一个没有椅子的会议室,他或她不会突然感到时空错乱。我们就是这么聪明。
相比之下,机器人可能相当愚钝。或者至少是僵化的。一个没有椅子的会议室可能会被误认为储藏室,并被永远标记为储藏室,直到生日聚会结束、座位归还很久之后。这并非拟人化它们,这种认知上的僵化提醒我们机器人是多么不像人类。当机器试图共享数据集,并将它们的经验整合成一个更大的环境标签集合时,还会出现更多问题。如果一个机器人将一个区域注册为会议室,而另一个机器人将其标记为储藏室,它们如何协调这种差异?人类可以利用我们的大嘴巴和更大的大脑来解决分歧,而机器人则被困在它们相互冲突、不屈不挠的标签中。
AMPS 算法有望打破这些僵局,让机器人重新审视各种标签的重要性。豪说:“这不仅仅是事物的位置,还有它们是什么,它们由什么组成。例如,会议室有多少把椅子才算关键?如果一个机器人已经发现了一个它认为是储藏室的地方,里面有箱子、橱柜和架子,那么离它很近的地方真的会有另一个储藏室(而没有任何那些标志性特征)吗?”根据豪的说法,他与他的研究生特雷弗·坎贝尔(Trevor Campbell)一起创建了该算法,关键在于让互联的机器能够为它们的标签建立新的优先级,重建它们的世界观。通过允许有椅子或没有椅子的会议室,并重新排序它们的标签以适应不同的经验,机器人可以实现豪和坎贝尔所说的“语义对称”。
这是一种解决目前还算不上大问题的方案。自主系统在制造车间的明确、精心标记的范围内之外相对罕见,而那些被设计成可以学习的系统则更加罕见。但是,随着自动驾驶机器人变得越来越普遍,以及它们需要导航的环境和行为越来越多样化,协作学习可能会成为一项重要的资产。豪说:“这是关于制造不会总是举手说‘这不是你定义的最终事物之一,我不知道现在该怎么办’的机器人。”
换句话说,AMPS 是为未来几代自主机器设计的,例如机器人汽车,它们将不可避免地遇到程序员没有远见或能力去准备的情况。例如,在日落时分,一些城市会变成行人横穿马路的自由市场,迫使车辆在大胆的行人来回穿梭中缓慢行驶。一辆只见过行人在人行横道耐心地等待的、生活在郊区的机器人汽车,可能会在面对新奇、难以理解的情况下,像机器人通常做的那样,停滞不前。与此同时,一辆更常在城市行驶的无人驾驶汽车可能对这种每晚发生的随心所欲的鲁莽行为和低速风险评估有更多经验。如果这两辆机器人汽车在同一个交通信号灯前停下,并能够有效地共享它们的数据,它们可能会调和它们不同的观察结果。郊区的模型可以摆脱停滞(或一开始就避免陷入其中),并以足够的谨慎和决心继续前进。城市中的精灵机器人不一定能从了解汽车文化盛行地区的行人行为中获益,但也许它能学到一些关于盲区车道或在应急车道上狂奔的流氓的技巧。
协作学习可以通过其他方式实现,例如将机器连接到一个庞大、始终在线的网络,整个服务器场可以处理冲突的标签并根据需要更新机器人。并且,RoboEarth 项目,一个自称是“机器人维基百科”的项目,希望能为机器人建立一个通用的知识库。但 AMPS 的优势在于它能够在无法持续联网的情况下工作,无论是在澳大利亚内陆的砂石路,还是火星表面被刨出的陨石坑。这种方法侧重于机器人之间的通信,而无需强大的后端系统。它本质上增加了自主机器的自主性,并为有意义的学习奠定了基础。豪说:“我们正在从终身学习的角度来考虑这个问题。这意味着一个机器人可以独自在外面运行一年,而无需不断回来提问。机器人可以像人一样四处游荡,单独或成对地互动,找到相互学习的方法。”
现在断言 AMPS 算法是否会应用于自动驾驶汽车还为时过早。但是,正如豪指出的那样,无人驾驶汽车是他所在的麻省理工学院信息与决策系统实验室(MIT research center)的主要关注点之一。更短期的应用可能是在探索或基于观察的机器人中。考虑到该项目得到了海军研究办公室的资助,一个擅长团队合作的军事系统似乎是完全可行的。但从长远来看,协作学习比任何单一类别的机器人都要宏大。它的承诺是创造更自主的机器人,它们不需要被引导完成每一项任务,也不需要被灌输每一块相关数据。因为如果我们屈服于拟人化机器的冲动(而且很难不这样做),那么自主机器几乎还站不稳脚跟,并且仍然需要我们照顾。