1X创建"机器人矩阵":超现实世界模型彻底改变机器人训练方式
您是否曾想过如何教一个价值数百万美元的人形机器人不要把您的猫误认为是灰尘兔?或者它如何学会打开一个难开的泡菜罐而不把橱柜门从铰链上拆下来?您可以花一辈子让它在现实世界中练习,累积一系列滑稽(且昂贵)的失误视频。
或者,如果您是机器人公司1X,您只需为机器人构建一个"矩阵"世界。
今天,1X揭开了其**1X世界模型(1XWM)**的面纱,这是一种突破性的AI技术,它充当原子世界与比特世界之间的桥梁。这是一个高保真模拟器,能够预测未来,让他们的NEO人形机器人在进入您家之前,先在数字游乐场中练习、失败和学习。
这不仅仅是另一个视频游戏引擎。它是机器人领域的水晶球,将解决创造真正自主型仿生人的最大瓶颈之一。
问题:在现实中测试太痛苦
1X的终极目标是将NEO机器人部署到可以想象的最混乱的环境中:我们的家。一个汽车钥匙神秘消失、家具随意重新排列、某个特定的特百惠盖子自2019年以来一直不见踪影的地方。
为每种可能的场景测试机器人的编程(或"策略")在物理上是不可能的。您无法模拟出一百万个不同的杂乱厨房。正如1X所说:“物理评估每个策略…需要几辈子的时间。”
1XWM:机器人的数字水晶球
1X世界模型就是答案。它以现实世界的起点——房间的几帧视频——为基础,然后根据机器人的特定动作预测接下来会发生什么。
与典型的"文本到视频"AI相比,这里有一个关键区别:1XWM是动作可控的。您不给它一个模糊的提示,如"清洁柜台"。您输入的是来自机器人的精确、低级别的动作轨迹——关节的精确角度、手臂的速度、抓握的力量。然后模型模拟后果,精确到布擦拭表面或门在铰链上摆动的物理效果。
结果令人惊叹。该模型可以从同一起点生成多个不同的未来,展示如果NEO抓取一个马克杯与弹奏想象中的吉他会发生什么。这使1X能够在很短的时间内运行数百万次实验,在现实世界中不移动任何物体的情况下对其AI进行压力测试。
矩阵术语解读:快速指南
感觉就像吞下了红色药丸?让我们分解关键术语。
什么是"世界模型"? 将其视为AI的内部想象力。它是对世界运作方式的模拟,允许AI预测如果执行某个动作"接下来会发生什么"。这是通过试错学习与事先思考后果之间的区别。
什么是"机器人策略"? 简单来说,它是机器人的大脑或决策策略。它是一套复杂的规则,告诉机器人根据它所看到、听到和感觉到的内容采取什么行动。世界模型用于快速评估哪种"策略"最佳。
“动作可控"是什么意思? 这意味着模拟是由机器人的精确、准确动作引导的,而不是由一般文本命令引导的。这对于逼真地模拟物理效果至关重要。模型需要知道机器人是在尝试推门还是拉门。
什么是"本体感受”? 这是机器人对自身身体的感知。它知道其肢体所在的位置、关节的角度以及它如何在空间中移动,而无需"看到"自己。这是我们人类的触觉和平衡感,但适用于机器人。1X发现使用本体感受的策略表现明显更好。
什么是"反事实"? 这些是"假如"场景。世界模型可以接收机器人在现实世界中失败的情况,并模拟如果它采取不同行动会发生什么。这就像拥有一台用于机器人训练的时间机器。
从虚拟练习到现实世界智能
那么,所有这些数字白日梦真的能造就更好的机器人吗?根据1X的说法,答案是响亮的肯定。
世界模型的预测与现实世界结果之间存在高度相关性。当模拟器预测一个版本的AI在某项任务上会比另一个更好时,现实世界的评估证明了这一点。这种即时反馈循环具有革命性,使他们能够:
- 选择最佳大脑: 无需冗长的物理测试,快速从训练运行中挑选性能最佳的AI模型。
- 从错误中学习: 整理现实世界失败的数据集,并使用模型探索机器人本应采取的不同做法。
- 扩展学习: 模型看到的数据越多,它就变得越聪明。它甚至可以将知识从一个任务转移到另一个任务——处理架子的经验帮助它理解街机游戏机。
当然,它并不完美。1X对其局限性保持透明。该模型目前难以模拟与从未见过的物体的交互。但随着训练数据量的增长,这种"想象力差距"有望缩小。
合成数据的未来
1X的最终目标是宏大的。他们相信,一个足够先进的世界模型可以生成与现实世界数据无法区分的合成数据。
当这种情况发生时,困扰机器人技术数十年的数据瓶颈可能会消失。您不再需要花费数年时间收集数据;您可以在模型内生成无限、完美定制的训练场景。
正如1X团队所述,“数据和评估是解决自主性的基石,而1XWM为解决这两个挑战提供了统一的路径。”
这是一个大胆的愿景:一个未来,机器人不仅在现实世界中接受训练,还在他们自己的数字世界中——一个为他们准备进入我们世界的矩阵。一如既往,机器人前沿杂志将在此报道这个模拟未来如何成为我们的现实。