DeepMindのビジョン:全ロボットを支配するAI

長年、ロボット業界はシンプルながらも苛立たしい前提に縛られてきた。すなわち、ロボットを一体作るたびに、それに合わせた専用の頭脳を開発するというものだ。腕が違えば、車輪が変われば、タスクが変われば、ゼロからのやり直し。この骨の折れる一点もののアプローチは、専門家集団を生み出したものの、真の汎用型ロボットは置き去りにした。だからあなたのルンバはサンドイッチを作ってくれないし、工場のロボットアームが犬の散歩をすることもできないのだ。しかし、もし一つのAIが、それら全てを操縦できるようになるとしたら?

それこそが、Google DeepMindが掲げる大胆不敵な目標であり、ロボットチームの責任者であるカロライナ・パラダ氏が静かなる革命を監督している場所だ。最近のThe Humanoid Hubとの広範なインタビューで、パラダ氏は、専用プログラミングを普遍的で適応性の高い知能に置き換えるというビジョンを明かした。彼女曰く、チームの「羅針盤」は、「物理世界におけるAGIの解決」に他ならない。2022年に世間がChatGPTの詩的な表現に魅了されている間も、パラダ氏は自身のチームが社内で大規模言語モデルに取り組んでいたため、さほど驚きはなかったと指摘する。彼女が感じた真の教訓は、研究成果を一般公開することの計り知れない価値だったという。

ロボットの身体に宿るGeminiの頭脳

この野望を推進するエンジンは、DeepMindの具現化されたAI向け基盤モデルの最新版であるGemini Robotics 1.5だ。これは、単にシャシーに組み込まれた別のチャットボットではない。混沌として予測不能な物理世界で、知覚し、推論し、行動するために根本から設計された、真の視覚-言語-行動(VLA)モデルなのだ。Googleが説明するように、「Gemini Roboticsは物理空間について推論する能力を追加し、ロボットが現実世界で行動することを可能にする」。

1.5へのアップグレードは、汎化、対話性、器用さという三つの柱に焦点を当てている。さらに重要なのは、DeepMindが「物理エージェント」と呼ぶものを導入した点だ。このシステムは二つの部分からなる頭脳を使用する。

  • Gemini Robotics-ER 1.5:「具現化された推論」モデルは戦略的プランナーとして機能する。「このこぼれたものを片付けて」といった複雑な指示を受け取り、論理的なステップに分解する。持ち合わせていない情報をGoogle検索のようなツールを使って調べることさえできる。
  • Gemini Robotics 1.5 (VLA):これは運動野であり、推論モデルからの段階的な計画を受け取り、それがどんな身体に宿っていようとも、その身体のための正確な物理的行動へと変換する。

このアーキテクチャにより、ロボットは「行動する前に考える」ことができ、問題について推論するための内なる独白を生成することで、その意思決定をより透明にし、正直に言って、より賢くする。

究極の目標:クロスエンボディメント転送

しかし、最も重要な飛躍は、パラダ氏が「クロスエンボディメント転送」と呼ぶものだ。その考えとは、あるロボットが習得したスキルを、再訓練なしに、全く異なる別の機械にシームレスに転送できるというものだ。「実際に、バイアームのALOHA、Frankaロボット、ApptronikのApolloヒューマノイドといった異なるプラットフォーム間でテストしても、同じ重みセットが機能するのです」とパラダ氏は説明する。

これは業界の常識からの根本的な転換だ。車輪型ロボットが学習したタスクが、理論上、ヒューマノイドが同様の動作を実行する方法に情報を提供できるのだ。これこそが、単一プラットフォーム開発という終わりのないサイクルから脱却するための鍵となる。「私たちは、本当に幅広い、非常に豊かな多様なロボットタイプのエコシステムが存在する未来を信じています」とパラダ氏は述べる。「もし私たちが物理世界でAIを解決したいと言うのであれば、私たちにとってそれは、どんなロボットにも具現化できるほど賢くなければならないという意味です。」

このコンセプトは、DeepMindがRT-Xのようなモデルで行った以前の研究に基づいている。RT-Xは、33の研究機関にわたる22種類の異なるロボットタイプから集められた膨大なデータセットで訓練された。そのプロジェクトは、多様なハードウェアでの共同訓練が、モデルに新たなスキルと空間関係のより良い理解を授けることを実証した。Gemini Robotics 1.5は、この原則を大幅にパワーアップさせた進化形と言えるだろう。

変化するタイムライン

ロボット研究者にとって、人間を観察するだけで学習できる機械という夢は、常に遠い存在だった。「以前は、チームの誰もが『ああ、これは私のキャリアが終わってからの話だ』と思っていました」とパラダ氏は認める。「そして今、私たちは実際に、『あとどれくらい先の話だろう?5年?それとも10年?』といった議論をしています。」

この加速は肌で感じられるほどだ。パラダ氏は、ヒューマノイドが私たちの世界のために設計されているため「重要なフォームファクター」であると認めつつも、それらが唯一重要なフォームファクターであるという考えには異を唱える。DeepMindのビジョンはハードウェアに依存しない。知能こそが製品であり、それが宿る金属の殻ではないのだ。

究極の課題?私たちの家庭だ。パラダ氏は、家庭がロボット工学にとって「最後のフロンティアの一つ」になると考えている。それは、家庭が非常に非構造的で混沌としているからに他ならない。工場のフロアは予測可能だが、家庭のキッチンは全く違う。

全てを統べる一つの頭脳

DeepMindの戦略は、根本的な賭けを表している。ロボット工学の未来は、より優れたハードウェアではなく、より普遍的でスケーラブルな知能にあるというものだ。AIの「頭脳」をロボットの「身体」から切り離すことで、彼らはすべてのロボットから同時に学習し、世界中の機械群でその知識を積み重ねることができる基盤モデルの創出を目指している。

これは、何十年もの間、この分野を制約してきた「一体のロボットに一つの頭脳」というボトルネックを最終的に打破できるアプローチだ。私たちは単に賢いロボットを手に入れるだけでなく、私たちが作り得るあらゆる機械に具現化する準備ができた、普遍的なパイロットの誕生を目の当たりにしているのだ。ジェットソン一家のロボット執事は、どうやら身体横断的な巨大な飛躍を遂げたようだ。