Skild AI、ロボットにYouTubeを見せて料理を教える

汎用ロボットへの壮大で、しばしばぎこちない道のりにおいて、業界は繰り返し同じ厄介なハードル、すなわち「データ」につまずき続けてきた。言語モデルがインターネット全体をむさぼり食い、まさにテキストの食べ放題ビュッフェを享受できた一方で、ロボット工学は、テレオペレーションという、遅く、高価で、痛々しいほど制限された食事を、手作業でその創造物に与え続けてきたのだ。しかし今、Skild AIというスタートアップは、スプーンで食べさせるのをやめ、単にロボットにメニューを見せることを決意した。彼らの最新の実証? 人間のビデオを見ることでスキルを習得し、スクランブルエッグを一皿さっと作れるロボットアームだ。

これは単なる芸当ではない。物理AIにおける中核的な問題、すなわち「データボトルネック」に真っ向から挑むものだ。従来のロボット訓練手法は、人間オペレーターが機械を遠隔で「操り人形のように」操作し、特定のタスクに必要な正確なモーター制御データを収集するというものだった。Skild AIが指摘するように、この戦略は2つの致命的な欠陥を抱えている。ほとんどのデータが無菌のラボ環境で収集されるため、多様性に欠けること。そして、真の基盤モデルに必要なレベルまで拡張するのは、数学的に不可能であることだ。必要な兆単位のデータポイントを生成するために、24時間年中無休でロボットを動かし続けるだけの人間を雇うことなど、到底できないのだ。

YouTubeからロボットへのパイプライン

より大きなデータファームを構築しようとする代わりに、Skild AIは既に存在するデータ源、すなわちインターネットを活用している。同社の核心的な洞察は、人間がYouTubeのチュートリアル、TikTokのライフハック、その他無数の解説動画という形で、ロボット工学のための「インターネット規模」のデータセットを既に作り上げているという点だ。誰もが知っているようで気づかなかったその解決策は、人間が学ぶのと同じ方法である「観察学習」にある。私たちは流体力学を計算して飲み物を注ぐことを学ぶのではなく、誰かがやっているのを見て、あとは脳が勝手に理解するのだ。

Skild AIは、そのモデルに同じことを教えている。人間がタスクを実行している動画を見ることで、AIは意図と行動の順序を学習し、視覚的なデモンストレーションをロボットのコマンドへと効果的に変換するのだ。

Video thumbnail

もちろん、そう単純な話ではない。ゴードン・ラムゼイがビーフウェリントンを作る動画をロボットに見せて、ミシュランの星を獲得するような料理を期待するのは、純粋な夢物語だ。主要な技術的課題は、業界が「身体性ギャップ(Embodiment Gap)」と呼ぶものにある。人間の手には27の自由度があるが、2本指のグリッパーにはない。人間のシェフの流れるような動きを、多軸ロボットアームの硬直した関節にマッピングすることは、途方もない翻訳問題なのだ。

オムニボディ学習とSkild Brain

ここに、Skild AIがその秘伝のタレがあると主張する理由がある。同社は「オムニボディ」基盤モデルと呼ぶものを開発し、これをSkild Brainと名付けた。このAIはハードウェアに依存しない設計で、車輪付きヒューマノイドから固定型アームまで、様々なロボットの形態を、どれか一つに特化しすぎることなく制御できる。このモデルは、大量の人間による動画と物理ベースのシミュレーションを学習データとして事前訓練されており、それにより物体がどのように操作されるべきかについて、汎用的な理解を構築することを可能にしている。

「事前プログラミングではなく、経験による学習こそが、ロボット工学で起きた画期的な変化だ」と同社は述べ、NVIDIAのシミュレーションおよびAIインフラストラクチャを活用し、「数日で千年分の経験」を獲得していることを強調した。

このアプローチにより、ロボットは動画から新しいスキルを、1時間未満のロボット特有のデータでファインチューニングするだけで学習できる。その結果、食洗機への食器入れ、植物への水やり、カーテンの開閉といったロボットのデモで示されているように、様々なタスクや環境にわたって一般化できるシステムが実現したのだ。

A collage showing Skild AI robots performing various tasks learned from video, including cooking and home assistance.

ロボット革命がもたらすもの

もしSkild AIのアプローチが、彼らが主張する通りスケーラブルで効果的であることが証明されれば、その影響は計り知れない。それはロボット訓練の経済性を根本から変えるものとなるだろう。広大で高価なテレオペレーションファームの必要性は、増え続ける、一般公開された人間の活動ライブラリから学習する強力なモデルに取って代わられる可能性があるのだ。これにより、家庭、レストラン、建設現場といった非構造化環境、つまりオートメーションがこれまで苦戦してきた場所でのロボットの展開が劇的に加速するかもしれない。

業界は注目している。ヒューマノイドや汎用ロボット分野の競合他社もまた、テレオペレーション、シミュレーション、あるいは人間による動画のいずれかを通じて、データ問題の解決にそれぞれ大きな賭けをしている。

今のところ、Skild AIは説得力があり、率直に言って美味しそうなデモンストレーションを披露した。世界の残りの人々が人間が見るためのコンテンツ作りに忙しい一方で、Skildは静かにそのコンテンツを、私たちの未来のロボットアシスタントのためのカリキュラムへと変えている。自学自習するロボットシェフの時代は、私たちが思うよりも近いのかもしれない。