Navigáció
Válassz a menüpontok közül

机器人革命是开源的:NVIDIA 的 GR00T N1 开启通用机器人时代

开源引领机器人革命:NVIDIA的GR00T N1开启通用机器人时代

在圣何塞SAP中心宽阔的场馆内,数千名开发者和技术专家怀着激动的期待,NVIDIA首席执行官黄仁勋身着标志性皮夹克迈步走上舞台,戏剧性地停顿片刻后宣布:“通用机器人时代已经到来。“这一宣言,在周二NVIDIA的GTC 2025大会上发表,不仅仅是夸张之词——它标志着机器人领域的"安卓时刻"诞生:NVIDIA Isaac GR00T N1,全球首个开源人形机器人基础模型。

为每一副躯体打造大脑:机器人智能的民主化进程

与当今主导头条的专有AI系统形成鲜明对比,GR00T N1代表了机器人智能的根本不同路径——一条建立在开放性、可及性之上的道路,其愿景是创造能够在不同环境和任务中通用化的机器人,无需为每个场景专门编程。

“借助NVIDIA Isaac GR00T N1以及全新的数据生成和机器人学习框架,全球机器人开发者将开启AI时代的下一个前沿领域,“黄仁勋在长达两小时多的主题演讲中向满场观众宣布。这一声明概括了NVIDIA的雄心勃勃战略:创造将为下一代人形机器人提供动力的底层智能,然后免费向全球开发者开放。

这一宣布之所以尤为重要,是因为它解决了机器人领域最持久的挑战——训练数据的可扩展性。正如NVIDIA的高级研究经理兼体现式AI负责人Jim Fan在演讲后在LinkedIn上解释的那样:“我们的使命是将物理AI民主化。通用机器人大脑的力量,尽在掌握——仅凭20亿参数,N1从有史以来最多样化的物理动作数据集中学习,展现出超越其规模的能力。”

快速与缓慢思考的机器人

GR00T N1的核心是一种受人类认知启发的双系统架构——NVIDIA称之为"快与慢"思考。这种方法源自认知科学理论,将人类思维分为两个系统:直觉的、自动的反应和深思熟虑的、有条理的推理。

“系统2”,即慢思考组件,使用视觉语言模型感知和推理机器人的环境及接收到的指令,然后规划适当的行动。“系统1”,即快思考组件,将这些计划转化为精确、连续的机器人动作,以120Hz的执行速率运行。这种架构使机器人能够处理需要同时具备深思熟虑和流畅动作的复杂任务——拾取物体、单手或双手操作物体,以及执行多步骤序列。

在一个明显激发观众兴奋的演示中,黄仁勋展示了1X公司的Neo人形机器人,使用基于GR00T N1构建的策略自主执行家庭整理任务。机器人流畅的动作和对环境的明显理解,突显了该模型在实际应用中的潜力。

用合成现实突破数据壁垒

NVIDIA方法中最具革命性的方面可能是它如何解决机器人学的基本数据问题。虽然语言模型可以在互联网的庞大文本语料库上训练,但机器人学习传统上受到物理世界限制的约束——一个人类示范者每天只能生成24小时的训练数据。

“人类示范数据受到一天小时数的限制,“NVIDIA的GR00T N1介绍视频中的讲解员解释道。为了克服这一限制,NVIDIA开发了能够将现实世界示范指数级扩展成海量合成数据集的框架。

使用NVIDIA Isaac GR00T Blueprint的首批组件,该公司在短短11小时内生成了78万个合成轨迹——相当于连续九个月的人类示范数据。当与真实数据结合时,这种合成数据集使GR00T N1的性能比仅使用真实数据提高了40%。

该方法使用三种数据来源:真实人形机器人遥操作数据(使用如Apple Vision Pro等系统收集的沉浸式控制),大规模模拟数据(NVIDIA正在开源超过30万个轨迹),以及Fan称之为"神经轨迹"的内容——使用最先进的视频生成模型来"幻化"具有准确物理特性的新合成数据。

“用黄仁勋的话说,‘系统性的无限数据’!“Fan在他的帖子中提到,引用了黄仁勋对这种数据生成方法的描述。

星球大战时刻:蓝色机器人成为焦点

在一个让观众纷纷掏出手机的瞬间,黄仁勋介绍了"Blue”,一个富有魅力的机器人,看起来就像从《星球大战》电影中走出来的一样。这个双足机器人,让人联想到R2-D2但又有着自己独特的个性,围绕黄仁勋走动,发出富有表现力的哔哔声,并向观众点头致意,引来阵阵掌声。

“告诉我那不是令人惊叹的,“黄仁勋在观众的掌声中说道,Blue展示了其能力。这个机器人不仅仅是为了展示——它展示了NVIDIA与Google DeepMind和Disney Research的新合作伙伴关系,共同构建名为Newton的新开源物理引擎。

“我们需要一种专为非常细粒度、刚性和软体设计的物理引擎,能够训练触觉反馈、精细运动技能和执行器控制,“黄仁勋解释道。基于NVIDIA Warp框架构建的Newton引擎将针对机器人学习进行优化,并与Google DeepMind的MuJoCo和NVIDIA Isaac Lab等模拟框架兼容。

华特迪士尼幻想工程研究与开发高级副总裁Kyle Laughlin为迪士尼的参与提供了背景:“BDX机器人只是开始。我们致力于以前所未见的方式让更多角色栩栩如生,与迪士尼研究院、NVIDIA和Google DeepMind的合作是该愿景的关键部分。”

10万亿美元的机遇

这场机器人革命的赌注是巨大的。黄仁勋将机器人描述为"下一个10万亿美元产业”,解决全球估计超过5000万人的劳动力短缺问题。

对于开发人形机器人的公司来说,GR00T N1提供了一个实质性的领先优势。开发者不必从零开始构建机器人智能,而是可以利用NVIDIA的基础模型,并通过后训练为特定机器人或任务进行定制。

1X Technologies的首席执行官Bernt Børnich作为GR00T N1的早期合作伙伴之一,强调了这一优势:“NVIDIA的GR00T N1模型为机器人推理和技能提供了重大突破。通过最少量的后训练数据,我们能够在NEO Gamma上全面部署——进一步实现我们的使命,创造不仅仅是工具,而是能够以有意义、不可估量的方式协助人类的伙伴。”

其他获得早期访问权的领先人形机器人开发商包括Agility Robotics、Boston Dynamics、Mentee Robotics和NEURA Robotics。

跨体现:意想不到的转折

虽然人形机器人是GR00T N1的主要焦点,但Fan揭示了一个引人入胜的能力:跨体现支持。“我们微调它,使其能够在110美元的HuggingFace LeRobot SO100机械臂上工作!“他写道。这表明基础模型的益处可以超越昂贵的人形平台,扩展到更容易获取的硬件。

Fan对这一发展的兴奋在他的结论中显而易见:“开放机器人大脑运行在开放硬件上。听起来恰到好处。让我们一起解决机器人问题,一个标记一次。”

未来之路

GR00T N1模型、训练数据和任务评估场景现已在Hugging Face和GitHub上可用,NVIDIA Isaac GR00T Blueprint用于合成操作动作生成的交互式演示可在build.nvidia.com上获取。

对于希望使用这些模型的开发者,NVIDIA还宣布了DGX Spark个人AI超级计算机,提供一个完整的系统,无需广泛的自定义编程即可扩展GR00T N1的能力,用于新型机器人、任务和环境。

Newton物理引擎预计将于今年晚些时候推出,进一步扩展机器人开发者的工具集。

物理AI的民主化

NVIDIA方法的独特之处在于其对开放性和可及性的强调。通过使GR00T N1及其相关工具广泛可用,NVIDIA将自己定位为不仅仅是机器人智能的单一构建者,而是作为全球开发者社区创新的基础层。

随着机器人从专业化的工业应用转向跨多样化环境的通用能力,NVIDIA的开放方法可能会以类似开源软件如何改变计算的方式加速创新。这家以游戏图形处理技术闻名的公司,现在正在为智能机器人像今天的智能手机一样普及的未来奠定基础。

在机器人社区,对GR00T N1的反应热情高涨,尽管对当前机器人硬件限制仍存在一些怀疑。正如一位机器人公司创始人对早期GR00T更新的回应所言:“如果机器人硬件能与人类相当就好了。但事实并非如此。痛点在于机器人仍是笨拙的近似品,远非人类水平。”

尽管如此,NVIDIA的愿景很明确:如果机器人要在人类生活的无数场景中真正发挥多功能性和实用性,它们需要一种能够快速适应新环境和任务的通用智能。随着GR00T N1的出现,这一未来迈出了重要的一步。

“通用机器人时代已经到来,“黄仁勋宣布。对于一个经常过度承诺而交付不足的领域来说,NVIDIA对机器人智能的系统性方法——结合基础模型、合成数据生成和开放协作——或许代表了使这一宣言成为现实的最可信路径。