長年、AIが自らを改良し続けるという壮大なビジョンは、そのほとんどがシミュレーションという「デジタルの箱庭」の中に閉じ込められてきました。ビデオゲームを攻略するAIを作るのと、高価なハードウェアを使い、泥臭く予測不能な現実世界で試行錯誤させるのとでは、話が全く別だからです。
しかし今、NVIDIAの研究チームは、カーネギーメロン大学およびカリフォルニア大学バークレー校との共同研究により、ついにラボの鍵をAIに明け渡す決断を下しました。彼らが開発した新フレームワーク「ENPIRE」は、いわば「自走するロボット研究プログラム」。その初期成果は、人間のロボット工学エンジニアたちの立場を危うくするほど、鮮烈かつ驚異的なものでした。
ENPIREは、自律的に思考し行動する「エージェント型」AIに、物理的な学習プロセス全般を完全にコントロールさせます。その結果、従来の人間による試行錯誤では数週間を要していた高度な器用さが求められるタスクにおいて、99%という驚異的な成功率を叩き出しました。箱へのピン挿入、GPUの装着、さらには工具を使った結束バンドの切断までもが、AIの手によって成し遂げられたのです。これは単にハイパーパラメータを微調整した結果ではありません。AIエージェントが現実の結果に基づき、自らアルゴリズムを書き換えた成果なのです。つまり、研究開発サイクルそのものをAIに「外注」したに等しいと言えます。
自動化されたフィードバックループ
ロボット工学における最大のボトルネックは、常に「人間の監視」と「アルゴリズムの設計」という手間のかかるプロセスでした。ENPIREは、AIが完全に自律管理できるクローズドで再現可能なフィードバックループを構築することで、この課題を正面突破しました。このフレームワークは、その名の由来となった4つの巧妙なモジュールで構成されています。
- Environment(環境 - EN): 実機テストにおいて最も退屈な2つの作業、すなわち「次の試行のためのシーンのリセット」と「結果の判定」を自動化します。特筆すべきは、メインの学習を始める前に、別のエージェントが「どうすれば作業空間を自動リセットできるか」をまず解明する点です。リセット作業は、往々にしてメインのタスクよりも単純な問題であるという洞察に基づいています。
- Policy Improvement(方策改善 - PI): ここでAIエージェントが本領を発揮します。単純なヒューリスティックの記述から、行動クローニングや強化学習(RL)といった複雑な手法まで、改善のためのあらゆる戦略を自ら提案し、実装します。
- Rollout(展開 - R): 理論が現実と衝突する場所です。提案された方策を1台または複数台の物理ロボットで実行し、貴重な実機データを収集します。
- Evolution(進化 - E): AIエージェントは実行ログを分析し、科学論文を参照して新しいアイデアを取り入れ、次の反復に向けてコードを洗練させます。これは、24時間365日休むことなく走り続ける、自動化された「科学的手法」そのものです。
この構造により、混沌とした現実世界でのロボット学習が、初期設定以降は最小限の人手しか必要としない、クリーンで制御可能な最適化問題へと変貌を遂げました。

インターンから主任研究員へ
ENPIREが画期的な飛躍とされる理由は、AIに与えられた権限の大きさにあります。NVIDIAの研究者であるJim Fan氏が「真の自動研究(real autoresearch)」と呼ぶ通り、エージェントは既存のアルゴリズムのノブを回しているだけではありません。彼らは異なるプログラミングパラダイムを能動的に探索し、自らの訓練目的を書き換え、データローダーさえも修正します。
例えば、ピン挿入タスクの学習中、あるエージェントは「強化学習のパラメータ調整は最善策ではない」と自ら判断しました。そして、接触力を考慮した安全制御プログラムを一から自作し、結果としてそれがより効果的な解決策であることを証明したのです。これは、研究インターンがいつの間にか主任研究員に昇格し、ベテランが手を焼いていた難問を自ら解決してしまうようなものです。
プロジェクトの「ヒルクライム・タイムライン(成功率の推移)」を見ると、そのプロセスは実に見事です。正則化の追加やコントローラーの補正といった、エージェントが提案した様々なアイデアが積み重なり、わずか数時間のうちに成功率が完璧に近い99%へと押し上げられていく様子が分かります。
ロボット労働力のスケールアップ
ENPIREは拡張性も考慮して設計されています。このフレームワークは、並列稼働するロボット艦隊(フリート)全体を管理し、学習プロセスを劇的に加速させることが可能です。このマルチロボット・マルチエージェントシステムの効率を測定するため、研究チームは2つの新しい指標を提案しました。**Mean Robot Utilization(平均ロボット稼働率 - MRU)**と、**Mean Token Utilization(平均トークン利用率 - MTU)**です。これらは、システムがいかに効率よくロボットを稼働させ、AIモデルの計算リソースをいかに無駄なく使っているかを評価するものです。
この研究が示唆する未来は深遠です。物理的なフィードバックループが自動化されることで、ロボット工学のボトルネックは「アルゴリズムの設計」から、「AIエージェントが自律的に攻略できる、自己リセット型の環境設計」へと移行するでしょう。
NVIDIAはENPIREフレームワーク全体をオープンソース化する計画を発表しており、これが実現すれば、高度なロボット研究へのアクセスが民主化されることになります。近い将来、ロボットアームとそれなりのGPUさえあれば、誰でも自宅に「自己進化するロボットラボ」を構築できるようになるかもしれません。AIが現実世界で自ら学び、結束バンドを切り、自らのコードを書き換える時代。それはもはやシミュレーションではなく、今まさに私たちの目の前で動き出しているのです。
技術的な詳細については、公開された論文でさらに深く掘り下げることができます。 リンク: NVIDIA Researchのページで論文を読む
