FigureのHelix 02が10万行のコードを排除、皿洗いもこなす「AIの脳」を搭載

長年、ヒューマノイドロボットはテック界における「不器用な思春期」のような存在だった。振り付け通りのダンスやバク転はお手本のようにこなすが、いざ「日常の家事」という実用的なタスクを頼もうものなら、途端に使い物にならなくなる。ロボット産業は長らく、「ロコ・マニピュレーション(移動と操作の同時並行)」という極めて難解な壁にぶつかってきた。歩行と手先の作業を同時に行わせようとすると、高価なパーツの塊が無残に崩れ落ちるのが関の山だったのだ。

しかし、Figure AIが発表した最新AIモデル「Helix 02」は、その停滞を過去のものにしようとしている。これは単に「ガムを噛みながら歩く」レベルの話ではない。歩き、繊細な皿を運び、食洗機から食器を取り出すという一連の動作を、4分間ノンストップで自律的に完結させてみせたのだ。これは、よくある「見栄えだけを整えた短時間のデモ」ではない。一つのニューラルネットワークが、視覚情報(ピクセル)から関節のトルク制御まで、ロボットの全身を司る。移動と操作の間に横たわっていた深い溝を、ついにブリッジした瞬間と言えるだろう。

「継ぎはぎだらけのコード」からの脱却

従来、ヒューマノイドに意味のある動作をさせるには、フランケンシュタインの怪物のような「継ぎはぎ」のコードが必要だった。あるコントローラーが歩行を担当し、別のシステムが姿勢を安定させ、さらに別のシステムが「掴む」動作を引き継ぐ。このバケツリレー方式は、動作が遅く、極めて脆弱だ。もし対象物がわずかでも予想外の動きをすれば、論理の積み木は一瞬で崩壊してしまう。

「真の自律性を実現するには、根本的に異なるアプローチが必要です。全身を一度に思考する単一の学習システム、つまり、絶え間なく知覚し、判断し、行動するシステムです」と、Figureの発表文は強調している。

これこそが、Helix 02が解決すべく設計された核心的な課題だ。異質なシステムを無理やり繋ぎ合わせるのではなく、Figureは思考と行動を統合された一つの「全体」として扱う、階層型AIアーキテクチャを構築した。

身体を操る「三層構造の脳」

Helix 02の魔法は、それぞれ異なる時間軸で動作する3つのシステムからなるアーキテクチャにある。これを企業組織に例えるなら、戦略を練るCEOから、現場で実務をこなすインターンまでの階層構造のようなものだ。

  • System 2(戦略家): 高度な推論レイヤー。視覚シーンと言語を処理し、「食洗機を空にして」といった抽象的なコマンドを、具体的な一連の目標へと分解する。全体像を俯瞰するため、低速だが深く思考する。
  • System 1(戦術家): ロボットの全感覚(頭部カメラ、新採用の手のひらカメラ、指先の触覚センサー)を全関節へと繋ぐ「視覚運動ポリシー(visuomotor policy)」。System 2が設定した目標を、200Hzという高速な全身コマンドへと翻訳する。
  • System 0(アスリート): 全ての土台となるモデル。1,000時間を超える人間のモーションデータでトレーニングされており、1kHzという驚異的な速度で動作する。あらゆる動きが安定し、バランスが取れた自然なものになるよう保証する。特筆すべきは、FigureがこのSystem 0によって、10万9,504行にも及ぶ手書きのC++コードを、たった一つのニューラルネットワークに置き換えてしまったことだ。彼らは、図書館一冊分に相当するコードを「解雇」し、人間の動きを観察して学んだAIを「雇用」したのである。
Video thumbnail

この「ピクセルから全身へ(pixels-to-whole-body)」というパイプラインにより、ロボットは食洗機タスクにおける61もの異なるロコ・マニピュレーション・アクションを、4分間のバレエのように滑らかに実行できる。歩行、運搬、配置、さらには両手がふさがっている時に腰を使って引き出しを閉める動作まで、流れるように遷移していく。

実際に「何」ができるのか?

食洗機のデモは主役だが、新型機「Figure 03」に搭載されたハードウェアの進化、特に手のひらカメラと触覚センサーが、器用さのレベルを一段上のステージへと押し上げている。これらのセンサーにより、従来の視覚のみのシステムでは不可能だったフィードバック制御が可能になった。

触覚センサーはわずか3グラム(1円玉3枚分程度)の荷重すら検知できる。これはクリップの感触を判別できるほどの繊細さであり、これまでにない微細な運動スキルを可能にする。

食器洗いを超えた「器用さ」の証明

Helix 02は、その微細な運動能力を証明するために、数々の難関タスクに挑んでいる:

  • ボトルキャップを開ける: ボトルを潰さないよう力を制御しつつ、両手の精密な協調動作が求められる。
  • ピルケースから一錠だけ取り出す: 頭部カメラが死角になるような近接作業でも、手のひらのカメラを使って正確に捉える。
  • シリンジで正確に5mlを計り取る: 滑らかで連続的な力を加えるために、リアルタイムの触覚フィードバックを駆使する。
  • 乱雑な箱から金属パーツを一つずつ取り出す: Figure自体の製造拠点「BotQ」での実作業を想定したタスクであり、予測不能な雑多な環境での適応能力を示している。

分析:実用的なヒューマノイドへのパラダイムシフト

他社がド派手な身体能力を誇示する一方で、Figureは「現実世界でいかに役に立つか」という、地味ながらも極めて重要な課題にフォーカスしている。上半身のみを制御していた初代「Helix」から、わずか1年で全身の自律制御を実現した「Helix 02」への飛躍は、この分野の進化がいかに加速しているかを物語っている。

最大のポイントは、脆弱な「手書きコードによる制御」から、柔軟な「学習によるシステム」へと完全に移行したことだ。人間の動きという膨大なデータセットで基盤モデルを訓練することで、二足歩行の形態がどう動き、どうバランスを取るべきかという「自然な先入観」をロボットに埋め込むことに成功した。これにより、上位のAIは「何をすべきか」に集中し、下位のシステムが「どう動くか」を完璧に処理できるようになった。

これは、特定のタスクを完璧にこなすロボットを作ることではなく、「あらゆることを学習できるプラットフォーム」を構築することを意味する。FigureのCEOであるBrett Adcockが指摘するように、Helixニューラルネットワークの改善はフリート(全機体)に即座に共有され、一機の学びが全てのロボットの進化へと繋がる。しかも、現在のハードウェアにおいてアクチュエーターはピーク速度の20〜25%程度でしか稼働していないという。つまり、パフォーマンスの「天井」はまだ遥か先にあるのだ。

結果はまだ緒に就いたばかりだが、これは決定的な転換点だ。全身の自律制御という難題をクリアしたことで、Figureは真の「汎用ロボット」の誕生に向けて、極めて重要な一歩を踏み出した。複雑な条件分岐(ステートマシン)など必要としない、本当に家事を任せられる日が、すぐそこまで来ているのかもしれない。