观看AI教会机器人“手”旋转笔的视频

结果比大多数人类都能做到的要好。
Animation of multiple robot hands twirling pens in computer simulation
现在,一些人工智能程序甚至不需要人类来帮助训练。 英伟达研究院

研究人员正在通过试错 强化学习训练机器人 执行 越来越多的任务 ,这通常 非常耗费精力耗时 。为了提供帮助,人类现在正在启用大型语言模型人工智能来加速 训练过程 。在最近的一项实验中,这使得机器人拥有了令人难以置信的灵巧性,尽管是模拟的。

一支 英伟达 研究院的团队使用 OpenAI 的 GPT-4 驱动的人工智能协议,来教一个 机械手 的模拟器执行近 30 项复杂任务,包括抛球、推积木、按开关,以及一些令人印象深刻的转笔技巧。

[相关: 这些由人工智能驱动的机械臂足够精细,可以拾取乐事薯片 。]

英伟达的全新 Eureka “人工智能代理”利用 GPT-4 ,让 大型语言模型 (LLM) 编写自己的基于奖励的强化学习软件代码。据该公司称,Eureka 不需要复杂的提示,甚至不需要预先编写的模板;相反,它只是开始打磨一个程序,然后遵循任何后续的外部人类反馈。

公司的公告 中,英伟达的高级研究科学家 Linxi “Jim” Fan 将 Eureka 描述为 LLM 和 GPU 加速模拟编程的“独特组合”。Fan 补充说:“我们相信 Eureka 将实现灵巧的机器人控制,并为艺术家提供一种制作物理上逼真的动画的新方法。”

从英伟达的演示视频来看,Eureka 训练的机械手可以进行堪比甚至超越极其灵巧的人类的转笔技巧。

在先进的模拟程序中测试其训练协议后,Eureka 会分析收集到的数据,并指示 LLM 进一步改进其设计。最终结果是一个几乎可以自我迭代的人工智能协议,能够成功地将各种机械手设计编码,使其在物理精确的模拟环境中操作剪刀、转笔和开柜子。

Eureka 替代人类编写的试错学习程序的方案不仅有效——在大多数情况下,它们实际上比人类编写的要 *好* 。在团队的 开源研究论文成果 中,Eureka 设计的奖励程序在超过 80% 的任务中表现优于人类代码,平均性能提升超过 50%。

[相关: 研究人员如何训练一个廉价的机器人狗来表演技巧 。]

“强化学习在过去十年中取得了令人瞩目的成就,但仍存在许多挑战,例如奖励设计,这仍然是一个试错过程,”英伟达人工智能研究高级总监、Eureka 论文的合著者 Anima Anandkumar 在公司的公告中说道。“Eureka 是开发集成生成和强化学习方法来解决困难任务的新算法的第一步。”

 

更多优惠、评测和购买指南

 
Andrew Paul Avatar

Andrew Paul

特约撰稿人

Andrew Paul 是 Popular Science 的特约撰稿人。


© .