NVIDIAの新AI「DreamZero」発表:わずか30分でロボットに未知の仕事を学習

AI業界が「ワールドモデル」という言葉で飽和状態にある中、NVIDIAが物理世界において真に意味を持つ一撃を叩き込んできた。その名はDreamZero。140億ものパラメータを抱えるロボット基盤モデルだ。このモデルの真髄は、シンプルなテキスト指示を解釈し、明示的な訓練を受けていないタスクをもこなしてしまう点にある。「World Action Model(WAM)」と銘打たれたこのモデルのトリックは、未来の映像をピクセル単位で“夢見る(シミュレートする)”こと。その映像から、現実のロボットをどう動かすべきかという制御命令を導き出すのだ。

特筆すべきは、その驚異的な適応力だ。DreamZeroは、わずか**55回程度のデモ(時間にして約30分)**を人間が遠隔操作で見せるだけで、全く未知のロボットに知識を転送できる。これまでの学習に数百時間を要していたことを考えれば、まさに次元の違う効率性といえるだろう。NVIDIAの研究によれば、未知のタスクや環境への汎用性において、DreamZeroは従来の最新鋭「Vision-Language-Action(VLA)」モデルの2倍以上のパフォーマンスを叩き出している。靴紐を解く、握手を交わすといった繊細な動作をこなす様子は、公式サイトで確認可能だ。

今回のプロジェクトは、ロボット訓練におけるこれまでの「常識」に2つの大きな一石を投じた。第一に、WAMにおいては同じタスクを延々と繰り返すよりも、データの「多様性」こそが重要であること。第二に、異なる形状のロボット間で知識を共有する「クロス・エンボディメント(異形態間転送)」の難題を解く鍵は、ピクセルにあるということだ。映像こそがユニバーサルな翻訳機となり、ロボット間、さらには人間からロボットへのスキル転送を可能にする。なお、このモデルと重みデータはGitHubでオープンソース化されており、ロボティクス・コミュニティ全体がこの新たな基盤の上に未来を築けるようになっている。

なぜこれが重要なのか?

DreamZeroは、ロボット学習のアプローチにおける根本的なパラダイムシフトを象徴している。あらゆるタスクをいちいちプログラミングするという、脆くて不可能な戦略はもう古い。業界は今、その場で学び、適応する「ジェネラリスト・モデル」へと舵を切ったのだ。映像を通じて世界の物理法則を学ぶことで、WAMは訓練データにない未知の挙動(例えば、一度も教わっていない靴紐の解き方など)を生成できる。

研究チーム自身は、これをロボット界における「GPT-2時代」と控えめに表現している。まだ完璧でも、GPT-3のような絶対的な信頼性があるわけでもない。しかし、これは極めて強力な一歩だ。人間の映像を含む多様なデータから学び、わずか数分で新しいハードウェアに適応する。NVIDIAは、複雑な実世界へのロボット導入のハードルを劇的に引き下げようとしている。これはもはや「特定の仕事を教える」ことではなく、ロボットに「あらゆる仕事を学ぶ能力を与える」という挑戦なのだ。