NVIDIA ENPIRE 让 AI 智能体运行机器人研究实验室，无需人类参与

多年来，AI 自我进化的宏伟愿景大多被局限在模拟环境的“数字游乐场”里。让 AI 精通电子游戏是一回事，但让它在混乱、容错率极低的现实世界里折腾昂贵的硬件，则完全是另一回事。现在，NVIDIA 联合卡内基梅隆大学（CMU）和加州大学伯克利分校（UC Berkeley）的研究人员，决定把实验室的钥匙彻底交给 AI。他们推出的全新框架 ENPIRE，本质上创建了一个能够自我运行的机器人研究项目，其初步成果不仅令人惊叹，甚至让不少人类机器人工程师感到了一丝“职业危机”。

ENPIRE 允许“智能体”AI（能够自主推理并行动的代码代理）全面接管物理实体的学习过程。在诸如插拔销钉、安装 GPU、甚至用工具剪断扎带等精密操作任务中，该系统实现了惊人的 99% 成功率。而这些任务通常需要人类进行数周的反复试验和错误修正。这不仅仅是微调几个超参数那么简单；AI 智能体正在根据现实世界的结果重写自己的算法，实际上是将整个研发周期“外包”给了它们自己。

自动化的闭环进化

长期以来，机器人技术的核心瓶颈在于繁重的人工监督和算法工程。ENPIRE 通过创建一个 AI 可以完全自主管理的闭环、可重复反馈路径，正面解决了这一痛点。该框架被分解为四个巧妙的模块，其首字母缩写构成了它的名字：

环境 (Environment, EN)： 该模块将现实世界测试中最枯燥的两个部分自动化了：重置实验场景和验证结果。在 AI 开始学习主任务之前，另一个智能体会先搞清楚如何自动重置工作区——这里的一个关键洞察是，重置环境往往比任务本身更容易通过机器人技术解决。
策略改进 (Policy Improvement, PI)： 这是 AI 智能体大显身手的地方。它们可以提出并实施各种改进策略，从编写简单的启发式算法到采用行为克隆（BC）或强化学习（RL）等复杂方法。
部署执行 (Rollout, R)： 这是“硬核”落地的阶段。该模块在一个或多个物理机器人上执行智能体提出的策略，收集宝贵的现实世界数据。
演化 (Evolution, E)： AI 智能体分析部署日志，查阅科学文献以获取灵感，然后为下一次迭代优化代码。这是一个永不停歇、自动化的科学探索过程，24/7 全天候运行。

这种结构将原本混乱的现实机器人学习过程，转化为一个简洁、可控的优化问题，在初始设置完成后几乎不需要人工干预。

从实习生到首席科学家

ENPIRE 之所以实现重大飞跃，在于它赋予了 AI 极高的自主权。这正是 NVIDIA 研究员 Jim Fan 所称的“真正的自动化研究（Real Autoresearch）”。智能体不仅仅是在预先写好的算法上拨动旋钮，它们正在积极探索不同的编程范式，重写自己的训练目标，甚至修改数据加载器。

在一个案例中，在学习插销任务时，一个智能体独立判断出调整 RL 参数并非最优解。相反，它从零开始编写了自己的接触力安全控制器（contact-force safety controller），事实证明这是一种更有效的解决方案。这相当于一个科研实习生把自己提拔成了首席科学家，然后解决了一个困扰资深团队已久的问题。

该项目的“爬坡时间轴”生动地展示了这一过程：智能体提出的不同想法（如增加正则化或补偿控制器）如何在短短几小时内，将成功率步步推向近乎完美的 99%。

规模化机器人劳动力

ENPIRE 天生具备扩展性。该框架可以同时管理一整群并行运行的机器人，极大地加速了学习进程。为了量化这种多机器人、多智能体系统的效率，研究人员提出了两个新指标：平均机器人利用率 (MRU) 和 平均 Token 利用率 (MTU)。这些指标衡量了系统让机器人保持忙碌的程度，以及利用 AI 模型计算预算的效率。

这项研究的前景影响深远。通过物理反馈回路的自动化，机器人技术的瓶颈可能会从“苦心设计算法”转向“设计自包含、可自动重置的环境”，然后让 AI 智能体自行攻克这些环境。

NVIDIA 已经宣布计划将整个 ENPIRE 框架开源，这可能会让先进的机器人研究变得平民化。很快，任何拥有机械臂和高性能 GPU 的人，或许都能在家里搭建自己的自我进化机器人实验室。AI 在现实世界中自我教学的时代不再是模拟——它正在现场运行，剪断扎带，并为这项工作重写自己的代码。

您可以阅读完整论文以深入了解技术细节。超链接：在 NVIDIA Research 页面阅读论文。

NVIDIA ENPIRE 让 AI 智能体运行机器人研究实验室，无需人类参与

自动化的闭环进化

从实习生到首席科学家

规模化机器人劳动力

向我们发送更正或建议

Apptronik Apollo 2 是我们意想不到的实用型人形机器人