Az 1X hadat üzen a VLA-burkolóknak és világmodell-labort indít

A fizikai világban operáló, gondolkodó gépekért folyó, elképesztő tőkeigényű versenyben egyre mélyül a szakadék a két uralkodó filozófia között. Az egyik oldalon a pragmatisták állnak, akik a már létező, gigászi erejű nagy nyelvi modellek (LLM) képességeit igyekeznek kiaknázni. A másikon a puristák, akik szerint a valódi fizikai intelligenciát nem lehet csak úgy utólag „rácsavarozni” egy szoftverre – azt az alapoktól, a nulláról kell felépíteni. Ezen a héten a humanoid robotikában úttörő 1X Technologies határozottan lehorgonyzott a második táborban: megnyitották az 1X World Model Lab-et, és egy olyan nyilatkozattal indítottak, ami felért egy hadüzenettel.

„Nem lehet eljutni az AGI-ig (általános mesterséges intelligencia) pusztán finomhangolással (fine-tuning)” – jelentette ki Bernt Bornich, az 1X vezérigazgatója egy sokatmondó bejelentésben. „És végképp nem lehet finomhangolással olyan robotokat építeni, amelyek képesek eligazodni a fizikai valóságban.” Ez a mondat egyenesen azoknak a versenytársaknak szólt, akik lelkesen adaptálják a Vision-Language-Action (VLA) modelleket – azokat az AI-rendszereket, amelyek lényegében egy erős vizuális-nyelvi modellt (mint a GPT-4) „csomagolnak be” motoros vezérlési képességekkel. Az 1X ezzel szemben mindent egy lapra tesz fel egy sokkal rögösebb úton: ez pedig a testet öltött világmodellek (embodied world models) fejlesztése.

A nagy választóvonal: Finomhangolás kontra alapelvek

Ahhoz, hogy megértsük az 1X lépésének súlyát, látnunk kell a robotagyak építésének két szembenálló doktrínáját.

A Vision-Language-Action (VLA) megközelítés, amelyet például a Figure AI is képvisel, a legkisebb ellenállás útja. A logika csábító: vegyünk egy többmilliárd dolláros alapmodellt, amely már érti a nyelvet és a képeket, tanítsuk be neki specifikusan a robotmozdulatokat, és voilà: kész a robot, amely érti az utasításokat. Ez a módszer az LLM-ekbe fektetett elképesztő energiára épít. A kritikusok szerint azonban ezekből a modellekből hiányzik a fizika valódi megértése. Kifinomult mintafelismerők ők, nem pedig fizikai szimulációs motorok. A tanítóadatokból tudhatják, hogy nem szabad leejteni egy poharat, de nem értik ösztönösen, hogy a gravitáció miatt fog az ripityára törni.

Ezzel szemben ott a World Model (Világmodell) koncepciója. Ez a nehezebbik út. A cél itt egy olyan alapmodell létrehozása, amely elsajátítja a világ belső, prediktív szimulációját. Mielőtt megtanulna egy konkrét feladatot – mondjuk „vedd fel az almát” –, előbb értenie kell a teret, a mozgást, a tárgyállandóságot, az ok-okozati összefüggéseket és a fizikát. A hívei szerint ez az egyetlen módja a valódi generalizációnak – annak, hogy a robot akkor is intelligensen cselekedjen, ha olyan helyzetbe kerül, amivel a tanítóadataiban soha nem találkozott.

Bornich álláspontja egyértelmű: „A technológia határa nem a még jobb VLA-csomagolásoknál van. A határt a testet öltött világmodellek jelentik.”

Az 1X mindent egy lapra tesz fel – és egy nagyágyút is leigazolt

Az új 1X World Model Lab a cég válasza erre a kihívásra. Küldetésük, hogy az alapoktól építsék fel a humanoidok számára leginkább általánosítható alapmodellt. E nagyszabású törekvés vezetésére az 1X elcsábította Sam Sinhát, aki a generatív videó-AI egyik nagyágyújától, a Luma AI-tól érkezett alapító kutatóként.

Az igazolás stratégiai mesterhúzás. A Luma AI szakterülete a hiperrealisztikus videómodellek létrehozása – ez a technológia pedig elméletileg nagyon közel áll egy olyan világmodell felépítéséhez, amely képes megjósolni a jövőbeli fizikai állapotokat. Sinha egész karrierje a multimodális generatív videómodellek skálázásáról szólt. Ahogy ő fogalmazott: a robotikát túl sokáig „másodrendű állampolgárként” kezelték az AI-világban, ahol a robotadatok csak egy „vékony finomhangolási réteget jelentettek a modellre rácsavarozva”. Az új labor ezen akar fordítani: a fizikai tapasztalatokból származó adatokat tekintik az elsődleges alapanyagnak.

Az 1X stratégiája egy öngerjesztő adatgyűjtési ciklusra, vagy ahogy ők hívják, „adat-lendkerékre” (data flywheel) épül:

  • Kezdés: Webes léptékű média, belső nézetű (egocentrikus) emberi videók és szimulációs adatok.
  • Hozzáadás: Távoli vezérlésű robotoktól származó precíziós adatok.
  • Bevetés: Egy egész NEO humanoid flotta küldése a terepre, hogy valós idejű, éles adatokat gyűjtsenek.
  • Ismétlés: A robot adatot gyűjt, a modell fejlődik, a robot még ügyesebb lesz.

Világépítők szövetsége

Az 1X nincs teljesen egyedül ezzel a meggyőződéssel. A világmodell-tábornak akadnak más nehézsúlyú tagjai is, még ha nem is mindannyian kétlábú robotokat építenek.

A Tesla Full Self-Driving (FSD) rendszere talán a legismertebb gyakorlati példa erre a koncepcióra. Az FSD egy belső „világmodellre” támaszkodik, hogy megjósolja minden autó, kerékpáros és gyalogos várható mozgását, belső szimulációkat futtatva a lehetséges jövőkről. Nem csak reagál; előre lát.

Az AI-világ egyik legmeghatározóbb alakja, Yann LeCun – aki a Meta után most az AMI Labs-et vezeti – évek óta a világmodellek leghangosabb szószólója. Szerinte az LLM-ek „alapvetően hiányosak”, mert nincs belső modelljük a világ működéséről. Munkája, a Joint Embedding Predictive Architecture (JEPA), pont arra irányul, hogy a modellek videók megfigyelésével és a történések megjósolásával sajátítsák el a józan paraszti észt – ami a világmodell-filozófia egyik alappillére.

Petabájtokkal kikövezett út

Az 1X lépése magas kockázatú, de hatalmas nyereséggel kecsegtető játszma. Egy alapvető világmodell felépítése a semmiből csillagászati összegekbe kerül és elképesztő adatmennyiséget igényel. Míg a VLA-tábor óriási előnyre tesz szert azzal, hogy olyan óriások vállán áll, mint a Google vagy az OpenAI, az 1X inkább saját alapozásba kezdett.

Az 1X World Model Lab sikere azon múlik, képesek-e az adat-lendkerék stratégiát valóban gigantikus léptékben megvalósítani. Ha sikerül, olyan adatfölényt és a robotoknak olyan robusztus intelligenciát adhatnak, amivel a VLA-alapú versenytársak nem tudnak majd mit kezdeni. Ha elbuknak, az intő jel lesz mindenki számára: nem érdemes elutasítani a pragmatikus rövidítéseket egy elegáns, de kivitelezhetetlen ideál kedvéért.

A harvonalak mindenesetre rögzültek. Vajon a robotika jövője az LLM-forradalom egy ügyes kiterjesztése, vagy egy teljesen új kezdetet igényel? Az iparág most feszülten figyeli, hogy az 1X merész fogadása – miszerint a világot a nulláról kell újraépíteni – bejön-e, vagy végül ők is kénytelenek lesznek finomhangolni… legalábbis a költségvetésüket.