ロボット革命はオープンソース化:NVIDIAのGR00T N1が汎用ロボティクスの時代を切り開く
サンノゼの広大なSAPセンターで、数千人の開発者と技術者の興奮が渦巻く中、NVIDIAのCEOであるジェンスン・フアンが象徴的なレザージャケット姿でステージを闊歩し、劇的な一瞬の後、「汎用ロボティクスの時代が来た」と宣言した。火曜日にNVIDIAのGTC 2025カンファレンスで発表されたこの宣言は、単なる誇張ではなく、ロボティクスの「Androidモーメント」となるかもしれないものの発表でした。それは、世界初のオープンな人型ロボット基盤モデル、NVIDIA Isaac GR00T N1の発表です。
あらゆるボディのための脳:ロボット知能の民主化
今日のヘッドラインを賑わせるプロプライエタリなAIシステムとは対照的に、GR00T N1はロボット知能に対する根本的に異なるアプローチ、すなわちオープン性、アクセシビリティ、そして各シナリオで特化したプログラミングなしに環境やタスク間で汎化できるロボットというビジョンに基づいています。
フアン氏は2時間以上に及んだ基調講演で、満員の会場に向かって「NVIDIA Isaac GR00T N1と新しいデータ生成およびロボット学習フレームワークにより、世界中のロボティクス開発者がAI時代の次のフロンティアを切り開くでしょう」と語った。この発言は、次世代の人型ロボットを動かす基盤となる知能を作り出し、それを世界中の開発者に無償で提供するというNVIDIAの野心的な戦略を凝縮しています。
この発表が特に重要であるのは、ロボティクスの最も根深い課題、すなわちトレーニングデータのスケーラビリティにどのように対処したかという点です。NVIDIAのエンボディードAI部門のリードでありシニアリサーチマネージャーであるジム・ファン氏は、基調講演後のLinkedInの投稿で次のように説明しました。「私たちは物理AIを民主化するという使命を帯びています。わずか20億パラメータで、多様な物理アクションデータセットから学習した汎用ロボットの頭脳のパワーを、あなたの手のひらに—そしてそのサイズをはるかに超える成果を上げています。」
速く考えるロボットと遅く考えるロボット
GR00T N1の中核にあるのは、人間の認知に触発されたデュアルシステム・アーキテクチャであり、NVIDIAはこれを「速い思考と遅い思考」と呼んでいます。このアプローチは、人間の思考を直感的で自動的な反応と、熟考された体系的な推論の2つのシステムに分けるという認知科学の理論に基づいています。
遅い思考を行うコンポーネントである「システム2」は、ビジョン言語モデルを使用してロボットの環境と受け取った指示を認識し推論し、適切なアクションを計画します。速い思考を行うコンポーネントである「システム1」は、これらの計画を120Hzの実行レートで正確で流動的なロボットの動きに変換します。このアーキテクチャにより、ロボットは熟考と流動的な動作の両方を必要とする複雑なタスク—物をつかむ、片手または両手で操作する、多段階のシーケンスを実行する—を処理できます。
聴衆が明らかに興奮したデモンストレーションで、フアン氏は1XのNeo人型ロボットがGR00T N1をベースにしたポリシーを使用して、自律的に家庭内の片付け作業を行う様子を見せました。ロボットの流れるような動きとその環境に対する理解力は、実用的なアプリケーションにおけるこのモデルの可能性を際立たせました。
合成現実によるデータバリアの打破
NVIDIAのアプローチの最も革新的な側面は、ロボティクスの根本的なデータ問題をどのように解決したかでしょう。言語モデルがインターネットの膨大なテキストコーパスから学習できるのに対し、ロボット学習は伝統的に物理世界の制約に縛られてきました—人間の実演者は1日に24時間分のトレーニングデータしか生成できないからです。
NVIDIAのGR00T N1紹介ビデオのナレーターは、「人間の実演データは一日の時間によって制限されます」と説明しました。この制約を克服するため、NVIDIAは現実世界のデモンストレーションを指数関数的に増やし、巨大な合成データセットを作成するためのフレームワークを開発しました。
NVIDIA Isaac GR00T Blueprintの最初のコンポーネントを使用して、同社はわずか11時間で78万の合成軌道を生成しました—これは人間の実演データで9ヶ月間に相当します。この合成データは、実データと組み合わせることで、実データのみを使用した場合と比較してGR00T N1のパフォーマンスを40%向上させました。
このアプローチは3つのデータソースを使用します:現実の人型テレオペレーションデータ(没入型制御のためにApple Vision Proなどのシステムを使用して収集)、大規模シミュレーションデータ(NVIDIAが30万以上の軌道と共にオープンソース化)、そしてファン氏が「ニューラル軌道」と呼ぶもの—最先端のビデオ生成モデルを使用して、正確な物理特性を持つ新しい合成データを「幻視」します。
ファン氏は自身の投稿で、「ジェンスンの言葉を借りれば、『体系的に無限のデータ』です!」と述べ、このデータ生成アプローチをフアン氏が表現した言葉を引用しました。
スター・ウォーズの瞬間:ブルーが主役をかっさらう
聴衆がスマートフォンを取り出すほどの瞬間に、フアン氏は『スター・ウォーズ』から飛び出してきたような魅力的なロボット「ブルー」を紹介しました。R2-D2を彷彿とさせながらも独自の個性を持つこの二足歩行ドロイドは、フアン氏の周りを歩き回り、感情豊かにビープ音を鳴らし、聴衆の歓喜の中で頭をうなずきました。
ブルーがその能力を実演すると、フアン氏は拍手の中で「あれが素晴らしくなかったと言ってみろ」と言いました。このロボットは単なる見世物ではなく、オープンソースの物理エンジン「Newton」を構築するために、Google DeepMindおよびDisney ResearchとのNVIDIAの新しいパートナーシップを実証しました。
フアン氏は、「非常に細かい剛体および軟体のための、触覚フィードバックと微細運動スキル、アクチュエータ制御のトレーニングを可能にする物理エンジンが必要です」と説明しました。NVIDIA Warpフレームワークに基づいて構築されたNewtonエンジンは、ロボット学習向けに最適化され、Google DeepMindのMuJoCoやNVIDIA Isaac Labなどのシミュレーションフレームワークと互換性があります。
ウォルト・ディズニー・イマジニアリング・リサーチ&ディベロップメントの上級副社長であるカイル・ラフリン氏は、ディズニーの関与について次のように背景を説明しました。「BDXドロイドは始まりに過ぎません。私たちはこれまで世界が見たことのない方法で、より多くのキャラクターに命を吹き込むことに尽力しており、このディズニー・リサーチ、NVIDIA、Google DeepMindとの協力はそのビジョンの中核をなすものです。」
10兆ドルの機会
このロボット革命における賭け金は莫大です。フアン氏はロボットを「次の10兆ドル産業」と表現し、5,000万人以上と推定される世界的な労働力不足に対処すると述べました。
人型ロボットを開発する企業にとって、GR00T N1は大きなアドバンテージを提供します。ロボットの知能をゼロから構築する代わりに、開発者はNVIDIAの基盤モデルを活用し、事後トレーニングを通じて特定のロボットやタスクに合わせてカスタマイズできます。
GR00T N1を早期に採用したパートナー企業の一つである1X TechnologiesのCEO、ベルント・ボルニッヒ氏は、この利点を強調しました。「NVIDIAのGR00T N1モデルは、ロボットの推論とスキルにおいて大きな飛躍をもたらします。最小限の事後トレーニングデータで、私たちはNEO Gammaに完全に展開することができ、人間を助ける有意義で計り知れない方法で支援できるロボットを創造するという私たちの使命をさらに推進しました。」
早期アクセスを行っている他の主要な人型ロボット開発者には、Agility Robotics、Boston Dynamics、Mentee Robotics、NEURA Roboticsが含まれます。
クロス・エンボディメント:予期せぬひねり
人型ロボットがGR00T N1の主な焦点ですが、ファン氏は興味深い機能であるクロス・エンボディメント・サポートを明らかにしました。「私たちはそれを110ドルのHuggingFace LeRobot SO100ロボットアームで動作するようにファインチューニングしました!」と彼は書きました。これは、この基盤モデルの利点が、高価な人型プラットフォームを超えて、よりアクセスしやすいハードウェアにも及ぶことを示しています。
ファン氏は、この開発に対する興奮を隠さず、次のように締めくくりました。「オープンなロボットの頭脳がオープンなハードウェアで動作する。まさにその通りだ。さあ、トークンを一つずつ、一緒にロボティクスを解決しよう。」
今後の道のり
GR00T N1モデル、トレーニングデータ、およびタスク評価シナリオは、Hugging FaceとGitHubで公開されており、合成マニピュレーションモーション生成のためのNVIDIA Isaac GR00T Blueprintは、build.nvidia.comでインタラクティブデモとして利用可能です。
これらのモデルで作業したい開発者のために、NVIDIAはまた、DGX SparkパーソナルAIスーパーコンピューターも発表しました。これは、広範なカスタムプログラミングなしに、新しいロボット、タスク、環境のためにGR00T N1の機能を拡張するためのターンキーシステムを提供します。
Newton物理エンジンは本年後半にリリースされる予定で、ロボティクス開発者のためのツールセットをさらに拡大します。
物理AIの民主化
NVIDIAのアプローチを際立たせているのは、オープン性とアクセシビリティへの重点です。GR00T N1とその関連ツールを広く利用可能にすることで、NVIDIAはロボット知能の唯一の構築者としてではなく、グローバルな開発者コミュニティが革新するための基盤レイヤーとして自らを位置づけています。
ロボティクスが特殊な産業用途から多様な環境にわたる汎用能力へと移行するにつれて、NVIDIAのオープンなアプローチは、オープンソースソフトウェアがコンピューティングを変革したのと同様に、イノベーションを加速させる可能性があります。ゲーム用グラフィックス処理でその評判を築いた企業が、今やインテリジェントなロボットが今日のスマートフォンと同じくらい普及する未来の基礎を築いています。
ロボティクス・コミュニティでは、GR00T N1に対する反応は熱狂的ですが、ロボットハードウェアの現在の限界については依然として懐疑的な見方もあります。あるロボット企業創設者は、以前のGR00Tのアップデートへの反応として、「ロボットのハードウェアが人間並みであれば問題ないだろう。しかし、そうではない。問題は、ロボットはぎこちなく、不器用な近似値であり、人間と同等にはほど遠いということだ」と述べました。
それにもかかわらず、NVIDIAのビジョンは明確です。ロボットが人間の生活の無数のシナリオで真に多用途で役立つ存在になるためには、新しい環境やタスクに迅速に適応できる汎用的な知能が必要です。GR00T N1により、その未来は著しく近づきました。
フアン氏は「汎用ロボティクスの時代が来た」と宣言しました。しばしば過度な約束と不十分な実行に終わってきた分野にとって、NVIDIAのロボット知能に対する体系的なアプローチ—基盤モデル、合成データ生成、オープンなコラボレーションの組み合わせ—は、その宣言を現実にするためのこれまでで最も説得力のある道筋かもしれません。