お掃除ロボットが少し賢くなったと感心していたのも束の間、スタートアップのGenesis AIが発表した新システムを前にすれば、それさえもただの「動く置物」に見えてしまうかもしれない。同社は、彼らが「ロボットの脳」と呼ぶGENE-26.5のデモンストレーション動画を次々と公開。そこには、料理からピアノの演奏、さらには科学実験まで、目を見張るほど多種多様で複雑なタスクをこなす姿が収められている。驚くべきは、これらすべてが再学習なしの「同一のAIモデル」で制御されているという点だ。
CEOのZhou Xian氏の投稿によれば、これらのデモはすべて完全自律型で、等倍速(1x speed)で実行されているという。ある動画では、ロボットが手際よく料理を完成させる様子が映し出されている。これについてXian氏は「1年かけてじっくり『料理(準備)』してきた成果だ」と述べているが、これは開発の難しさを物語るジョークなのか、それとも本音なのか。おそらくはその両方だろう。また、ミリ単位の精度が要求されるルービックキューブの操作や、実験器具の繊細な取り扱いなど、その器用さは際立っている。
Genesis AIは、このブレイクスルーの鍵は「ロボティクスのスタックをゼロから再構築したこと」にあると主張する。このシステムは、主に4つのコア要素で構成されている。言語、視覚、固有受容感覚(プロプリオセプション)、そして触覚データを学習したロボティクスネイティブな基盤モデル。人間と1対1の構造を持つマニピュレーション用ロボットハンド。人間の動き、力、感触をキャプチャする非侵襲型のデータ収集グローブ。そして、実験時間を劇的に短縮するシミュレーターだ。
なぜこれが重要なのか?
現代のロボティクスにおける「聖杯」は、汎用性(Generalization)の獲得だ。つまり、特定のタスクごとにプログラミングし直すことなく、単一のシステムであらゆる動作を学習・実行できるようにすることである。長年、その最大のボトルネックとなっていたのは、人間から高品質なマルチモーダルデータをいかに収集するかという点だった。
Genesis AIのフルスタック・アプローチ、特にデータ収集グローブと人間酷似型ハンドの組み合わせは、この課題に対する真っ向からの回答といえる。他社が巨大なAIモデルの構築に奔走する一方で、Genesisは「そのモデルに正しいデータを食わせるためのエコシステム全体」を構築しているのだ。もしGENE-26.5が、単一の重み(weights)セットでこれほど多様かつ繊細なタスクを本当に汎用化できているのだとしたら、それは「命令に従うロボット」から「自らスキルを学習するロボット」への、決定的な一歩となるだろう。

