数十年もの間、家庭用ロボットの約束は、ただの約束に過ぎなかった。今頃は「宇宙家族ジェットソン」のロージーが我が家にいて当然だったはずが、現実はバスマットに引っかかる円盤型掃除機だ。SFの世界と私たちの日常の現実との間には、途方もない隔たりがあり、その道筋には失敗したスタートアップ企業や過剰に宣伝されたデモの残骸が散乱している。しかし、NeurIPS 2025でデビューを飾る新たなコンペティション「BEHAVIORチャレンジ」は、この分野を無理やりにでも現実世界へと引きずり込もうとしている。少なくとも、とてつもなく説得力のあるシミュレーションの世界へ、だが。
その目標はシンプルだが、実行は苛烈を極める。ロボットに「実際の」家事をやらせるのだ。ただブロックを拾うだけではない。人間にとっては退屈極まりない、複雑で多段階にわたる作業を完遂させる。「仮想的、対話的、現実的な環境における日常の家事活動のベンチマーク」を意味するBEHAVIORは、単なるロボット工学のベンチマークではない。これは、今日の最先端AIを打ち砕くために設計された、本格的な「家庭内試練」なのだ。正直なところ、誰かがこれをやるべき時だった。
不気味の谷の家庭へようこそ
BEHAVIORチャレンジの核心にあるのは、ほとんどのロボット研究用サンドボックスが子供の遊び場に見えてしまうほど、途方もなく洗練されたシミュレーション環境だ。ここは無菌の実験室ではない。物事がめちゃくちゃになりうる、高精細で物理演算に基づいた世界なのだ。このベンチマークは、以下の三つの柱で成り立っている。
- 1,000の日常タスク: キューブ積みなんて忘れてしまえ。私たちが話しているのは、「ギフトバスケットの組み立て」や「皿と食べ物の片付け」、そして実存的な恐怖さえ覚える「ハロウィンの飾り付けの片付け」といったタスクだ。各タスクはBEHAVIORドメイン定義言語(BDDL)で正式に定義されており、初期状態と成功のための厳密な条件が明記されている。
- 50のインタラクティブな環境: これらは単なる静的な部屋ではない。約10,000個の操作可能なオブジェクトが配置された、完全にインタラクティブな家規模のレイアウトだ。冷蔵庫は開けられ、トマトはスライスでき、布は、そう、変形させられる。
- OmniGibsonシミュレーター: NVIDIAのOmniverseプラットフォーム上に構築されたこれが、魔法(と物理演算)が起こる場所だ。OmniGibsonは、剛体物理学だけでなく、変形可能なオブジェクト、流体相互作用、加熱、冷却、切断といった複雑な状態変化といった高度な現象もサポートしている。これこそが先行システムとの決定的な違いであり、いつの日か本物のキッチンに遭遇するかもしれないロボットを訓練するために不可欠な、現実レベルのリアリズムを可能にしている。
これは、単に操作やナビゲーションを個別にテストするものではない。BEHAVIORは、ロボットに高レベルの推論、長距離ナビゲーション、そして器用な両腕操作を、すべて同時に実行することを要求する、この種で初のベンチマークなのだ。成功するためには、AIはただ一つのことに長けているだけではダメだ。それは、(非常に忍耐強い)人間のように「考える」ことに長けていなければならない。
NeurIPS 2025の試練の道
NeurIPS 2025での初の開催にあたり、このチャレンジは、これら50種類の本格的なタスクを世界の研究コミュニティに解き放つ。参加者は、複数の部屋にまたがり、何十ものサブ目標を含む、完了までに数分かかるシナリオに仮想ロボットをプログラミングして挑まなければならない。「ピザを作る」や「犬のおもちゃを洗う」といった、計画性、記憶力、そして大量のデジタルな「肉体労働」(ここでは「骨の折れる作業」の意)を要するタスクを想像してみてほしい。
このシミュレーションによる試練におけるデフォルトロボットは、GalaxeaのR1 Proだ。これは、7自由度のアームを2本、4自由度の胴体、そして一連のセンサーを搭載した車輪型ヒューマノイドである。これは単なる不器用なブリキ缶ではない。そのデザインは、家庭での活動に不可欠なリーチ、安定性、そして両腕協調性を実現するために明確に選ばれている。
参加者がAIを原始的な無知の状態から立ち上げなければならない事態を防ぐため、主催者は膨大なデータセットを提供している。それは、10,000件の専門家によるデモンストレーションであり、総計1,200時間以上にわたる綿密に記録されたデータだ。これはブレブレの素人映像ではない。ベンダーのSimovationがJoyLoテレポートシステムを用いて収集した、クリーンでほぼ最適なデータなのだ。JoyLoは、運動学的に対になるアームにハンドヘルドコントローラーを取り付けた巧妙なシステムで、人間のオペレーターがロボットをタスクを通してスムーズに誘導することを可能にし、模倣学習のための完璧なテンプレートを提供する。
なぜこれがこれほどまでに難しいのか
「長期的視野(long-horizon)」という言葉はAI分野でよく使われるが、BEHAVIORはそれに「歯」を与えている。「本を箱に詰めて収納する」といったタスクでは、ロボットはリビングルームに移動し、正しい本を特定し、ガレージで箱を見つけ、それを持って戻り、それから各本を順番に中に入れる必要があるかもしれない。これは、ごく一部のベンチマークしか成し遂げられなかった方法で、長期間にわたる計画性と記憶力をテストする。
さらに、オブジェクト相互作用の途方もない多様性は目を見張るものがある。ロボットは、掴むことのはるか先にあるスキルを理解し、実行しなければならない。液体を注ぎ、表面を拭き、野菜を切り、スイッチを切り替える必要があるだろう。オブジェクトは開けられ、閉じられ、加熱され、凍結され、洗浄され、あるいは火をつけられることさえある。この豊富な必要スキルセット——少なくとも30種類の異なるプリミティブ——は、研究者たちに単一タスクモデルを超えて、より汎用的で適応性の高い知能へと向かうことを強いる。
このチャレンジをより利用しやすくするため、主催者はACTやDiffusion Policyといった標準的なモデルに加え、OpenVLAのような事前学習済みモデルを含む、いくつかのベースラインモデルを提供している。フレームワーク全体はオープンソースであり、参入障壁を下げるためのスターターキットとチュートリアルも完備されている。
ロボット執事をどう評価するか?
BEHAVIORチャレンジにおける成功は、主にタスク成功率によって測定される。システムはBDDLの定義を用いて、ロボットがすべての目標条件を満たしたかどうかを確認する。部分点も付与され、完璧には至らなくとも意味のある進歩を遂げたソリューションが奨励される。
また、賢いソリューションと不器用なソリューションを区別するために、二次的な指標も追跡される。
- 効率性: 所要時間、移動距離、総関節運動量が測定される。洗練された解決策とは、迅速なものだ。
- データ利用率: 主催者は、各提出物の訓練に1,200時間分のデモンストレーションデータのうちどれだけが使用されたかを記録し、データ効率に関する洞察を提供する。
コンペティションは2025年9月2日に正式に開始され、最終提出期限は11月16日だ。12月にサンディエゴで開催されるNeurIPSカンファレンスで発表される勝者には、賞金(1位には控えめな1,000ドル)が贈られるが、真の賞品は、その名誉と、具現化されたAIの分野を意義深く前進させる機会だ。
結局のところ、BEHAVIORチャレンジは単なるコンペティション以上のものだ。それは、ロボット産業全体に対する現実を突きつける場なのだ。これは、私たちのアルゴリズムが、実験室を出て、混沌として予測不可能で、しばしばベタつく人間の家庭環境へと移行する準備ができているかどうかを試すために、綿密に設計された「るつぼ」である。NeurIPS 2025の結果は、誰が最高のモデルを持っているかを示すだけでなく、私たちのロボットヘルパーが皿洗いをする準備ができるまでに、あとどれほどの道のりがあるのかをも明らかにするだろう。






