NVIDIA ENPIRE 让 AI 智能体运行机器人研究实验室,无需人类参与

多年来,AI 自我进化的宏伟愿景大多被局限在模拟环境的“数字游乐场”里。让 AI 精通电子游戏是一回事,但让它在混乱、容错率极低的现实世界里折腾昂贵的硬件,则完全是另一回事。现在,NVIDIA 联合卡内基梅隆大学(CMU)和加州大学伯克利分校(UC Berkeley)的研究人员,决定把实验室的钥匙彻底交给 AI。他们推出的全新框架 ENPIRE,本质上创建了一个能够自我运行的机器人研究项目,其初步成果不仅令人惊叹,甚至让不少人类机器人工程师感到了一丝“职业危机”。

ENPIRE 允许“智能体”AI(能够自主推理并行动的代码代理)全面接管物理实体的学习过程。在诸如插拔销钉、安装 GPU、甚至用工具剪断扎带等精密操作任务中,该系统实现了惊人的 99% 成功率。而这些任务通常需要人类进行数周的反复试验和错误修正。这不仅仅是微调几个超参数那么简单;AI 智能体正在根据现实世界的结果重写自己的算法,实际上是将整个研发周期“外包”给了它们自己。

自动化的闭环进化

长期以来,机器人技术的核心瓶颈在于繁重的人工监督和算法工程。ENPIRE 通过创建一个 AI 可以完全自主管理的闭环、可重复反馈路径,正面解决了这一痛点。该框架被分解为四个巧妙的模块,其首字母缩写构成了它的名字:

  • 环境 (Environment, EN): 该模块将现实世界测试中最枯燥的两个部分自动化了:重置实验场景和验证结果。在 AI 开始学习主任务之前,另一个智能体会先搞清楚如何自动重置工作区——这里的一个关键洞察是,重置环境往往比任务本身更容易通过机器人技术解决。
  • 策略改进 (Policy Improvement, PI): 这是 AI 智能体大显身手的地方。它们可以提出并实施各种改进策略,从编写简单的启发式算法到采用行为克隆(BC)或强化学习(RL)等复杂方法。
  • 部署执行 (Rollout, R): 这是“硬核”落地的阶段。该模块在一个或多个物理机器人上执行智能体提出的策略,收集宝贵的现实世界数据。
  • 演化 (Evolution, E): AI 智能体分析部署日志,查阅科学文献以获取灵感,然后为下一次迭代优化代码。这是一个永不停歇、自动化的科学探索过程,24/7 全天候运行。

这种结构将原本混乱的现实机器人学习过程,转化为一个简洁、可控的优化问题,在初始设置完成后几乎不需要人工干预。

展示 ENPIRE 框架架构及现实世界任务示例的图表。

从实习生到首席科学家

ENPIRE 之所以实现重大飞跃,在于它赋予了 AI 极高的自主权。这正是 NVIDIA 研究员 Jim Fan 所称的“真正的自动化研究(Real Autoresearch)”。智能体不仅仅是在预先写好的算法上拨动旋钮,它们正在积极探索不同的编程范式,重写自己的训练目标,甚至修改数据加载器。

在一个案例中,在学习插销任务时,一个智能体独立判断出调整 RL 参数并非最优解。相反,它从零开始编写了自己的接触力安全控制器(contact-force safety controller),事实证明这是一种更有效的解决方案。这相当于一个科研实习生把自己提拔成了首席科学家,然后解决了一个困扰资深团队已久的问题。

该项目的“爬坡时间轴”生动地展示了这一过程:智能体提出的不同想法(如增加正则化或补偿控制器)如何在短短几小时内,将成功率步步推向近乎完美的 99%。

规模化机器人劳动力

ENPIRE 天生具备扩展性。该框架可以同时管理一整群并行运行的机器人,极大地加速了学习进程。为了量化这种多机器人、多智能体系统的效率,研究人员提出了两个新指标:平均机器人利用率 (MRU)平均 Token 利用率 (MTU)。这些指标衡量了系统让机器人保持忙碌的程度,以及利用 AI 模型计算预算的效率。

这项研究的前景影响深远。通过物理反馈回路的自动化,机器人技术的瓶颈可能会从“苦心设计算法”转向“设计自包含、可自动重置的环境”,然后让 AI 智能体自行攻克这些环境。

NVIDIA 已经宣布计划将整个 ENPIRE 框架开源,这可能会让先进的机器人研究变得平民化。很快,任何拥有机械臂和高性能 GPU 的人,或许都能在家里搭建自己的自我进化机器人实验室。AI 在现实世界中自我教学的时代不再是模拟——它正在现场运行,剪断扎带,并为这项工作重写自己的代码。

您可以阅读完整论文以深入了解技术细节。超链接:在 NVIDIA Research 页面阅读论文