物理世界で自在に動く「思考するマシン」の開発。莫大な資本が投じられるこの狂騒的なレースの裏で、今、一つの巨大な思想的断絶が深まりつつある。
一方は、既存の巨大言語モデル(LLM)の圧倒的なパワーをレバレッジする「現実主義者」たち。もう一方は、真の物理的知能は既存のモデルに後付けできるものではなく、ゼロから構築されるべきだと主張する「純粋主義者」たちだ。今週、ヒューマノイド・ロボティクスの新星 1X Technologies は、後者の陣営に鮮明な旗印を掲げた。彼らが設立した 「1X World Model Lab」 の宣言は、業界への宣戦布告とも取れる過激なものだった。
「ファインチューニングの先に、汎用人工知能(AGI)はない」。1XのCEO、Bernt Bornich 氏は、競合他社を突き放すような声明を発表した。「ましてや、物理世界で機能するロボットを、ファインチューニングだけで作り上げることなど不可能なのだ」
この発言は、現在主流となりつつある「Vision-Language-Action(VLA)」モデルを採用する競合たちへの強烈なカウンターだ。VLAとは、GPT-4のような強力な視覚言語モデル(VLM)を、いわばモーター制御の能力で「包み込む(ラップする)」手法である。対する1Xは、より困難で険しい道、すなわち「エンボディード・ワールドモデル(身体化された世界モデル)」にすべてを賭ける決断を下した。
決定的な分断:ファインチューニングか、第一原理か
1Xのこの動きの重要性を理解するには、ロボットの「脳」を構築するための対立する二つの教義を知る必要がある。
まず、Figure AI などが推進する Vision-Language-Action(VLA) アプローチだ。これは極めて合理的な戦略に見える。すでに言語と視覚を理解している数百億ドル規模の基盤モデルを利用し、ロボットの行動データでファインチューニングを施す。そうすれば、指示を理解して動くロボットが完成するというわけだ。既存のLLMへの莫大な投資と進歩をそのまま転用できるのが最大のメリットだ。しかし、批判的な立場からは、これらのモデルには「物理学への真の理解」が欠けていると指摘される。彼らは洗練されたパターンマッチャーではあるが、物理エンジンではないのだ。学習データから「コップを落としてはいけない」とは知っていても、重力によってそれが粉々に砕けるということを「本能的に理解」しているわけではない。
一方、1Xが選んだ 「ワールドモデル(世界モデル)」 アプローチは、茨の道だ。そのゴールは、世界の内部的な予測シミュレーションを学習する基盤モデルを構築することにある。「リンゴを拾う」といった特定のタスクを学ぶ前に、まず空間、運動、物体の永続性、因果関係、そして物理法則といった概念を理解しなければならない。この陣営の信奉者たちは、これこそが真の「汎化(Generalization)」、すなわち学習データにない未知の状況に直面してもロボットが賢明に振る舞える唯一の方法だと信じている。
Bornich 氏のスタンスは明確だ。「フロンティアは、より優れたVLAのラッパーを作ることではない」と彼は断言する。「フロンティアとは、身体化されたワールドモデルを構築することにあるのだ」
1Xの「オールイン」と戦略的ヘッドハンティング
新設された 1X World Model Lab は、この挑戦に対する同社の回答だ。そのミッションは、ヒューマノイドのための最も汎用性の高い基盤モデルをゼロから作り上げることにある。この野心的な取り組みを率いるために、1Xは生成ビデオAIの寵児 Luma AI から、創設メンバーの一人であるリサーチサイエンティスト、Sam Sinha 氏を引き抜くというマスターストロークを放った。
この採用は極めて戦略的だ。Luma AIは、極めてリアルなビデオ生成モデルを専門としており、これは将来の物理的状態を予測するワールドモデルの構築と概念的に非常に近い。Sinha 氏のキャリアは、マルチモーダルな生成ビデオモデルのスケーリングの最前線にあった。彼が語るように、これまでロボティクスはAI分野において「二級市民」として扱われ、ロボットのデータは「既存モデルの上に薄く塗り重ねられたファインチューニング層」に過ぎなかった。新ラボはこの構図を逆転させ、身体化された(エンボディード)データを第一原理的な要素として扱うことを目指す。
1Xの戦略は、彼らが「データ・フライホイール」と呼ぶ、データの自己増殖サイクルに依存している:
- 起点: ウェブスケールのメディア、人間視点のビデオ、およびシミュレーションデータ。
- 追加: 遠隔操作ロボットから得られる、器用で高精度なデータ。
- 展開: ヒューマノイド NEO のフリートを投入し、実世界でのオンポリシー(自律的)データを収集。
- 反復: ロボットがデータを集め、モデルが進化し、それによってロボットがさらに賢くなる。
「世界の構築者」たちの同盟
この哲学的な信念を持つのは、1Xだけではない。二足歩行ロボットを作っているかどうかにかかわらず、ワールドモデル陣営には強力なプレイヤーたちが名を連ねている。
Tesla のフルセルフドライビング(FSD)システムは、おそらくこの概念の最も有名な実例だろう。FSDは、周囲の車や自転車、歩行者の未来の動きを予測するためにワールドモデルに依存しており、内部で「起こりうる未来」のシミュレーションを走らせて運転判断を下している。単なる反応ではなく、「予測」を行っているのだ。
また、現在は Meta の AMI Labs を率いるAI界の巨人、Yann LeCun 氏も、長年ワールドモデルの重要性を説いてきた。彼は、LLMは世界の仕組みに関する内部モデルを持っていないため「根本的に不完全」であると主張している。彼の提唱する「JEPA(Joint Embedding Predictive Architectures)」は、ビデオを観察し予測することで「コモンセンス(常識)」を学習するモデルを目指しており、これはワールドモデルの哲学の核心を突くものだ。
ペタバイトの先に待つ未来
1Xのこの動きは、ハイリスク・ハイリターンの大博打だ。基盤となるワールドモデルをゼロから構築するのは、天文学的なコストと膨大なデータを必要とする。GoogleやOpenAIといった巨人の肩に乗ることでスタートダッシュを決めるVLA陣営に対し、1Xは自ら土台を掘り起こす道を選んだ。
1X World Model Labの成否は、この「データ・フライホイール」をいかに大規模に回せるかにかかっている。もし成功すれば、彼らは強力な「データの堀(Moat)」を築き、VLAベースのロボットとは比較にならないほど堅牢で汎用的な知能を持つロボットを生み出すことになるだろう。もし失敗すれば、それは「実利的な近道を捨て、美しくも不可能な理想を追い求めた」という教訓として語り継がれることになる。
戦いの火蓋は切られた。ロボティクスの未来は、LLM革命の賢い延長線上にあるのか、それとも全く新しい始まりを必要としているのか。業界は今、1Xの「世界をゼロから構築する」という大胆な賭けが、黄金の果実をもたらすのか、それともファインチューニングが必要なのは彼らの収支報告書の方だったという結果に終わるのかを、固唾を飲んで見守っている。
