ヒューマノイド知能の激突:Humanoid「KinetIQ」vs Figure「Helix 02」

ヒューマノイド・ロボットに搭載される「究極の人工脳」を巡る開発レースが過熱する中、興味深い哲学的な分断が浮き彫りになりつつある。もはや、ロボットを歩かせたり、ソーダを持ってこさせたりできるかどうかという次元の話ではない。真の戦場は、知能そのものの「アーキテクチャ」へと移行しているのだ。

一方には、見て学ぶことで全てを習得する「エンド・トゥ・エンドの天才児」がいる。そしてもう一方には、緻密に組織化された「官僚機構」のようなシステムがある。後者の陣営に自信を持って名乗りを上げたのが、Humanoid社が発表した新しいAIフレームワーク「KinetIQ」だ。これは単一のロボットを制御するためだけではなく、ロボットの「オーケストラ」全体を指揮するために設計されたシステムである。

この登場により、Figure AIとの真っ向勝負が鮮明になった。Figure AIの FigureのHelix 02が10万行のコードを排除、皿洗いもこなす「AIの脳」を搭載 は、その流れるような長時間のアウトノミー(自律性)で世界を驚かせた。Figureが、複雑で多段階のタスクを学習する単一の統合ニューラルネットワークの構築に注力する一方で、Humanoidは、より泥臭く、より産業的な課題である「フリート(群)管理」に挑んでいる。これは「孤高のヴィルトゥオーゾ(名手)」と「総責任者」の戦いであり、その結末は、今後数十年にわたるロボットと社会の融合のあり方を決定づけることになるだろう。

KinetIQ:認知の階層構造

HumanoidのKinetIQは、彼らが「クロス・タイムスケール(時間軸横断型)」アーキテクチャと呼ぶ構造を採用している。平たく言えば、コマンドとコントロールを4層に重ねたデコレーションケーキのようなものだ。このエージェンティック・フレームワークは、まるで企業組織のように機能し、各階層が独自のスピードと抽象度で動作する。

最上層に位置するのは、System 3(エージェンティック・フリート・オーケストレーター)だ。これは、いわば「経営陣(C-suite)」である。工場の管理ソフトウェアなどと連携して高度な目標を受け取る。数秒から数分という長いタイムスケールで動作し、二足歩行型や車輪型といった多様なロボットたちを、効率を最大化するための「リソース」として配備する。

その一段下にあるのが、System 2、つまりロボット単位の「プロジェクトマネージャー」だ。この層はオムニモーダル言語モデルを使用し、System 3からの指令を解釈して、個別のロボットが実行すべき一連のサブタスクへと分解する。周囲の環境を推論し、動的に計画を変更することも可能で、現場での臨機応変な問題解決を担う。

刻一刻と変化する状況に対応して具体的な指示を出すのが、System 1だ。Vision-Language-Action (VLA) ネットワークであり、現場の「チームリーダー」として機能する。5〜10Hzのスピードで動作し、ロボットの手、体幹、骨盤などの各部位に対し、System 2の計画を遂行するための目標ポーズを連続的に出力する。

そして最後に、実際に物理的な作業をこなすのが System 0 である。これは全身制御を司るコントローラーで、50Hzで動作する。シミュレーション内での約15,000時間に及ぶ強化学習(RL)のみで訓練されており、その唯一の、そして必死の任務は、上層からのポーズ目標を、安定したバランスの取れた関節の動きへと変換することだ。箱を持ち上げようとして無様に転倒しないよう、常に目を光らせている。

Video thumbnail

Helix 02:エンド・トゥ・エンドの天才

対するもう一方のコーナーに立つのは、Figure AIのHelix 02だ。その哲学は根本から異なる。多層的な官僚機構の代わりに、Helix 02は単一の統合された視覚運動(visuomotor)ニューラルネットワークを中心に構築されている。そのマントラは「すべてのセンサーを入力し、すべての演算を出力する」こと。視覚、触覚、そして自己受容感覚を、一つの連続したシステムの中で全関節へと直接つなげている。

Helix 02も階層構造を持ってはいるが、より圧縮されているのが特徴だ。

  • System 2 は、KinetIQの上層部と同様に高度な意味論的推論を担当する。
  • System 1 こそが魔法の源泉だ。知覚を全身の関節目標へと直接変換する強力なポリシーであり、200Hzという高速で動作する。
  • System 0 は物理的な具現化の基盤となる。動きが滑らかで安定していることを保証するコントローラーだ。しかし、純粋な強化学習に頼るKinetIQとは異なり、HelixのSystem 0は1,000時間以上の「人間のモーションデータ」で学習されている。強化学習で磨き上げる前に、人間らしいバランスと協調のニュアンスを叩き込まれているのだ。動作速度も1kHz(毎秒1000回)と驚異的である。

このアプローチこそが、Figureが披露した「食器洗い機への食器の出し入れを4分間自律的に行う」というデモを可能にした。これは長時間のアウトノミーにおける金字塔であり、業界のベンチマークとなっている。

二つの脳の物語:哲学的な分断

KinetIQとHelix 02の違いは、単なる技術的なものではない。それはロボット工学の未来に対する二つの異なるビジョンを象徴している。

特徴Humanoid KinetIQFigure AI Helix 02
主な目的多様なロボットのフリート(群)管理単一ロボットによる長時間の自律性
アーキテクチャ4層のエージェンティック・フレームワーク3層の統合視覚運動ネットワーク
System 0 の学習約15,000時間の純粋な強化学習1,000時間以上の人間データ + 強化学習
System 0 の速度50 Hz1000 Hz (1 kHz)
主な強み拡張性、信頼性、多様なプラットフォームの管理流麗さ、器用さ、複雑で未知のタスクの学習
比喩統制の取れた物流企業高度な訓練を受けたソロ・アスリート

KinetIQのエージェンティックで階層的な設計は、極めて現実的だ。各層の関心を分離することで、Humanoidはシステム全体を再構築することなく、特定の層だけを改良、デバッグ、あるいは交換することができる。このモジュール性は、多数の機械の信頼性と調整が最優先される産業現場において理想的だ。

一方、Figureのエンド・トゥ・エンドのアプローチは、汎用知能(General Intelligence)の追求においてより野心的だ。人間のデータでシステムを訓練することで、本質的に優雅で、現実世界の混沌とした環境にも適応できる物理的アクションの「基盤モデル」を構築することを目指している。彼らが学ばせているのは単なる目標達成ではなく、「人間のように動く方法」そのものなのだ。

真の競争:華やかなデモから現場の重労働へ

最終的にどちらのアーキテクチャが優れているかは、研究所ではなく、工場のフロアや家庭の中で決まることになる。Humanoidは、物流や製造業における数十億ドル規模のチャンスこそが直近の勝負どころだと賭けている。そこでは、特化したロボットの群れを指揮することこそが核心的な課題だからだ。KinetIQはその世界のために専用設計されている。

対して、複雑で人間中心のタスクに焦点を当てるFigure AIは、いつの日かあらゆる人間環境をナビゲートできる真の汎用ロボットを目指し、より長いスパンでの勝負を仕掛けている。錠剤の取り扱いや注射器の精密な計量で見せた驚異的な器用さは、微細な運動制御の限界を押し広げている。

レースは始まったばかりだ。ロボット工学の未来を支配するのは、緻密なAIフリートマネージャーか、それとも天才的なロボットの神童か。KinetIQは、ハイライト動画のためではなく、24時間365日稼働し続ける産業現場の過酷な現実に向けた、強力な解答である。詳細については、thehumanoid.aiの公式発表を確認してほしい。