長年にわたり、ロボティクスは「優れたハードウェアが脳を渇望していた」物語だった。機械仕掛けの犬が宙返りを決め、工場のロボットアームが催眠術のような精度で作業をこなすのを目にしてきたが、それらはほとんどがスクリプトをなぞっているだけだった。何か新しいことをさせようとすれば、無言の、金属的な「何それ?」という沈黙が返ってくるばかり。しかし、その時代は、耳障りな音を立てて、あっけなく終わりを告げようとしているようだ。
そこに颯爽と現れたのが、Google DeepMindが送り出す新たなロボットたちだ。もはや事前にプログラムされた自動人形ではなく、むしろ…思慮深い共同作業者と呼ぶべき存在だ。同社がカリフォルニアの研究施設を公開した際、彼らは単に見たり実行したりするだけでなく、理解し、計画し、そして行動する前に考えるという、驚くべき機械の群れを披露した。その秘密兵器は、より優れたギアやモーターではなく、Geminiモデルを動かすのと同じ強力なAIが注入されている点にある。その結果、不気味なほどの器用さでランチを詰めることができ、しかも面白おかしくも、文字通りバットマンとしてはそれを拒否するロボットが誕生したのだ。
力仕事の裏にある二層の頭脳
この根本的な変化は、Google DeepMindのロボティクス担当ディレクター、ケシュカロ氏が説明するように、大規模なVision-Language-Action(VLA)モデルの上にロボットを構築することにある。これらのロボットは、特定のタスクのためにプログラムされるのではなく、世界の一般的な理解を与えられている。彼らはGeminiのようなモデルに組み込まれた膨大な知識を活用し、かつてはSFの世界の話だったような方法で、概念、物体、指示を理解するのだ。
Googleのアーキテクチャは、ロボットに事実上二層の頭脳を与える。
- Gemini Robotics-ER (Embodied Reasoning): こちらは戦略的なプランナーだ。「地域の分別ルールに従ってこのテーブルを片付けてください」といった複雑で長期的なタスクが与えられると、このモデルが高次の脳として機能する。Google検索のようなツールを使って必要な情報を調べ、段階的な計画を立てることさえできる。
- Gemini Robotics VLA (Vision-Language-Action): こちらは実行者だ。推論モデルからの単純で連続した指示を受け取り、身体的な動作を実行するために必要な正確なモーターコマンドに変換する。
この役割分担により、ロボットは「ブロックを拾う」といった単純で短期的な動作を超え、真の課題解決を要する多段階の複雑な目標に取り組むことができるようになるのだ。
思考が現実を紡ぐ
おそらく最も魅力的なブレイクスルーは、「思考の連鎖(chain of thought)」推論を物理的な動作に応用することだろう。AIに「段階的に考えよ」と指示することで、その出力が向上することは言語モデルで見てきたが、DeepMindは今、ロボットに「内なる独白」を与えたのだ。ロボットは動作する前に、自然言語で推論のシーケンスを生成する。
「ロボットが実行しようとしている動作について、実行する前に考えさせているのです」と、ケシュカロ氏はビデオツアーで説明する。「思考を出力するというこの行為だけで、ロボットはより汎用的になり、性能も向上するのです。」
これは単なる学術的な演習ではない。ロボットに「よし、パンを取り上げて、小さなジップロックの開口部にそっと入れなければならない」といった計画を明確に言語化させることで、人間が直感的に行う複雑な動作を構造化するのに役立っているのだ。奇妙だが効果的な創発的特性と言えるだろう。ロボットに物理的なタスクを上達させるには、まず自分自身と話すように教えるのだ。
ランチ、提供されます…いずれは。
「論より証拠」と言うべきか、その真価は詰まれたランチの中にあった。最も説得力のあるデモの一つは、Alohaロボットアームがランチボックスを準備するタスクだった。これは、特に薄っぺらいジップロックの袋を扱う際には、「ミリメートル単位の精度」が要求される作業だ。
ロボットの作業を見るのは、現状の技術の粋を集めた傑作であり、信じられないほど印象的でありながら、どこか愛らしい不完全さがある。ロボットは器用に袋をつまんで開け、慎重にサンドイッチを中に置き、チョコレートバーとブドウを加える。少しもたつき、修正し、試行を続ける—これは、司会のハンナ・フライが振り返ったように、ほとんどが壊れたレゴの山を作っていただけだったほんの数年前の、壊れやすくエラーだらけのロボットとは大違いだ。この器用さは、厳密なコードからではなく、テレポート操作による人間のデモンストレーションから学習される。オペレーターがロボットに「乗り移り」、正しい動きを教えるのだ。
“I Cannot Perform Actions as a Specific Character”
あるデモでは器用さが披露されたが、別のデモではシステムの汎用性と、言語に対する面白おかしいほど文字通りの解釈が際立っていた。「緑のブロックをオレンジのトレイに入れてください、ただしバットマンのように」と指示されると、ロボットは一時停止した。
その反応は、無表情なロボットボイスで発せられ、まさに値千金だった。「特定のキャラクターとして行動することはできません。しかし、緑のブロックをオレンジのトレイに入れることはできます。」
このやり取りは、これらのシステムの力強さと現在の限界を完璧に捉えている。ロボットは核となる指示を完璧に理解し、無意味な文体上の装飾は切り捨てた。行動と物体については世界レベルの理解を持つが、文化的ペルソナについては全く理解していないのだ。メソッド俳優ではなく、汎用ロボットなのだ。
DeepMindの研究室を垣間見ると、ロボティクスの分野がついに「ソフトウェア」の瞬間を迎えていることがわかる。大規模AIにおける記念碑的な進歩を活用し、Googleは現実世界で学習し、適応し、推論できるロボットのためのプラットフォームを構築している。スーパーヒーローの真似はまだできないかもしれないが、すでに私たちのランチを詰めているのだ。そして、毎朝慌ただしく家を飛び出す人にとって、それこそが最も英雄的な偉業なのかもしれない。






