現代ロボット工学の公には語られぬ秘密、それは、最も印象的なデモンストレーションの多くが、ただのハイテク操り人形劇に過ぎないというものだ。複雑で高価なテレイグザキューション(遠隔操作)装置に身を固めた人間のオペレーター部隊が、ロボットの一挙手一投足を遠隔で操り、有用な学習データを生成する。これは遅く、費用がかかり、率直に言ってスケールしないプロセスだ。スタンフォード大学の博士課程を中退したTony ZhaoとCheng Chiが設立したSunday AIは、この「スケーリングの行き詰まり」を目の当たりにし、その壁を完全に飛び越えることにした。
彼らが「ACT-1」と名付けた新しい基盤モデルを支えるその解決策は、驚くほど単純だ。ロボットにタスクを学ばせたければ、自分でやってみせればいい。2万ドルの遠隔操作装置の代わりに、Sundayのエンジニアが使うのは、たった200ドルの「スキルキャプチャグローブ」だ。このグローブは、同社のロボット「Memo」のハンドの形状とセンサーに合わせて共同設計されており、人間の動きが持つ、繊細で接触に富むデータを捉える。その前提は大胆不敵だ――人間がこのグローブを装着してできることなら、ロボットもそれを学習できる。操り人形劇は一切不要なのだ。
データボトルネックとグローブの解決策
Sundayの中核をなす信念は、ロボット工学がハードウェア、計算能力、資金によって足枷をかけられているのではなく、ただ一つ、決定的な制約、つまり「データ」によって阻害されているというものだ。大規模言語モデルがインターネット全体を飲み込むことができた一方で、ロボット工学にはそのような実世界のインタラクションデータのコーパスが存在しない。Teslaのような企業は何百万台もの車両をデータ収集に活用できるが、ロボティクススタートアップにはその贅沢を享受できない。遠隔操作は業界の答えだったが、それは資本集約的で、しかも遅い、力任せのアプローチだった。

スキルキャプチャグローブは、この問題に対するSundayの優雅な回避策だ。データ収集を分散化することで、誰でも、どこからでも、物理的なロボットを必要とせずにトレーニングセットに貢献できる。これにより、2つの主要な利点がもたらされる。
- 資本効率: Sundayは、このグローブが標準的な遠隔操作セットアップよりも二桁も安価であり、データ取得コストを劇的に削減すると主張している。
- データ品質: 靴下を畳むのに必要な力や、食洗機のラックにワイングラスをきちんと置くといった、感覚に頼るタスクでは、このグローブは遠隔操作では決して再現できない自然な力覚フィードバックを提供する。
このアプローチにより、Sundayは数百もの雑然とした、実世界の家庭からデータを収集し、彼らが言うところの「生活のロングテール」――食洗機に入り込んだ猫までをも含む――を反映したデータセットを構築している。
食卓から食洗機へ
ACT-1の真価を証明するため、Sundayは「ロボットが自律的に行った史上最も複雑なタスク」と称するものを披露した。それは、食卓を片付け、食洗機に食器をセットすることだ。これは単なる「掴んで置く」作業ではない。このタスクには、繊細な透明なワイングラスから、陶器の皿、金属製のカトラリーまで、21種類の異なる物体に対する33種類のユニークな、合計68回もの器用なインタラクションが含まれる。
この長期間にわたるタスクの全工程で、Memoロボットは約40メートル以上を移動し、食べ残しを捨て、さらには食洗機を操作する。これは、単一のエンドツーエンドモデルによって制御される、微細な操作と部屋規模のナビゲーションが織りなすシンフォニーだ。共同創設者のTony Zhaoは、開発中にたくさんのグラスを割ったことを認めているが、20回以上のライブデモでは一つも割らなかったという。これはモデルが学習した繊細さの証である。
実世界でのゼロショット汎化
自社のラボでしか動かないロボットは、ただの科学実験に過ぎない。ACT-1の適応能力を証明するため、チームはMemoを6つの見知らぬAirbnbに投入した。目標は、環境固有のトレーニングを一切行わずに、テーブルを片付け、食洗機に食器をセットすることだ。

トレーニング中に3Dマップでモデルを条件付けることで、ACT-1は特定のレイアウトを記憶するのではなく、新しいレイアウトを解釈することを学ぶ。新しい家に置かれた際、提供されたマップを使用して主要な場所に移動し、実世界の家庭の混沌とした環境に対応するロボットにとって不可欠な能力を示している。現在、ACT-1は、このレベルの長期間にわたる操作とマップ条件付きナビゲーションを組み合わせた初の基盤モデルである。
器用さの限界を押し広げる
マラソンのような食洗機タスクに加え、SundayはACT-1の巧みさを、悪名高い難題である「靴下を畳むこと」と「エスプレッソを淹れること」でも見せつけている。他のロボットが大きくて予測可能なものを畳むことはできても、靴下は、その変形しやすさと自己遮蔽性ゆえに悪夢のような存在だ。ACT-1は散らかった山の中からペアを識別し、多指操作で丸め、バスケットに入れることに成功する。
一方、エスプレッソマシンを操作するタスクは、ミリメートル単位の精度と力任せの操作の組み合わせが求められる。ロボットは空中でタンピングを行い、ポルタフィルターを挿入し、しっかりと固定するために必要な高トルクを発生させ、そしてボタンを押す。これらは単なる派手なデモではない。スキルキャプチャグローブが提供できる、高品質でニュアンスに富んだデータの厳選された証拠なのだ。
Sundayのアプローチは、大胆な賭けだ。斬新なデータ収集方法にすべてを賭けることで、彼らは業界最大のボトルネックを回避し、驚くべき能力を持つモデルを生み出した。車輪型ロボットMemoは、二足歩行ヒューマノイドのようなSF的な魅力はないかもしれないが、その実用的な知性は否定できない。Sundayは静かに挑戦状を叩きつけた。ロボット工学の未来は、操り人形師によってではなく、ロボットに「こうやるんだ」と示すことによって築かれるかもしれない、と示唆しているのだ。






