W morderczym, kapitałochłonnym wyścigu o stworzenie myślących maszyn zdolnych do pracy w świecie fizycznym, ideologiczne pęknięcie zamienia się właśnie w przepaść. Po jednej stronie stoją pragmatycy, wierzący w potęgę istniejących dużych modeli językowych (LLM). Po drugiej – puryści, którzy przekonują, że prawdziwej inteligencji fizycznej nie da się „dokleić” do gotowego oprogramowania; trzeba ją zbudować od podstaw. W tym tygodniu norweski startup 1X Technologies zajął twarde stanowisko w tym drugim obozie, ogłaszając powstanie 1X World Model Lab – deklarację, która brzmi jak wystrzał z armaty wymierzony w dolinę krzemową.
„Nie da się ’dotuningować’ drogi do AGI” – stwierdził bez ogródek Bernt Bornich, CEO 1X. „A już na pewno nie da się za pomocą fine-tuningu stworzyć robotów, które poradzą sobie w realnym świecie”. To bezpośrednia salwa ostrzegawcza w stronę konkurentów, którzy zachłysnęli się modelami Vision-Language-Action (VLA). Systemy te to w gruncie rzeczy potężne modele wizyjno-językowe (jak GPT-4), „opakowane” w moduły sterowania silnikami. 1X stawia wszystko na jedną kartę, wybierając znacznie trudniejszą ścieżkę: ucieleśnione modele świata (embodied world models).
Wielki podział: Fine-tuning kontra zasady fundamentalne
Aby zrozumieć wagę ruchu 1X, trzeba pojąć dwie ścierające się doktryny budowy robotycznego mózgu.
Podejście Vision-Language-Action (VLA), promowane m.in. przez Figure AI, to linia najmniejszego oporu. Logika jest tu kusząca: bierzemy wart miliardy dolarów model bazowy, który już rozumie język i obraz, douczamy go (fine-tuning) na zbiorze danych dotyczących ruchów robota i – voilà – mamy maszynę wykonującą polecenia. To strategia wykorzystująca gigantyczny postęp i kapitał wpompowany w LLM-y. Problem w tym, że – jak twierdzą krytycy – tym modelom brakuje autentycznego zrozumienia fizyki. To wyrafinowane systemy dopasowywania wzorców, a nie silniki fizyczne. Mogą wiedzieć z danych treningowych, że nie należy upuszczać szklanki, ale nie rozumieją wewnętrznie, że grawitacja sprawi, iż roztrzaska się ona w drobny mak.
Z drugiej strony mamy Modele Świata (World Models). To droga pod górę. Celem jest zbudowanie modelu bazowego, który uczy się wewnętrznej, predykcyjnej symulacji rzeczywistości. Zanim robot nauczy się konkretnego zadania, jak „podnieś jabłko”, musi najpierw pojąć koncepcje przestrzeni, ruchu, trwałości obiektu, przyczynowości i fizyki. Zwolennicy tej teorii wierzą, że to jedyny sposób na osiągnięcie prawdziwej generalizacji – zdolności robota do inteligentnego działania w sytuacjach, których nigdy nie widział w danych treningowych.
Stanowisko Bornicha jest jednoznaczne. „Granicą postępu nie są lepsze nakładki VLA” – zadeklarował. „Granicą są ucieleśnione modele świata”.
Vabank 1X i transfer dekady
Nowe laboratorium 1X World Model Lab ma być odpowiedzią firmy na to wyzwanie. Misja? Zbudowanie od zera najbardziej wszechstronnego modelu bazowego dla humanoidów. Aby poprowadzić ten ambitny projekt, 1X podkupiło Sama Sinhę, jednego z kluczowych naukowców z Luma AI – gwiazdy generatywnego wideo AI.
To strategiczny majstersztyk. Luma AI specjalizuje się w tworzeniu fotorealistycznych modeli wideo, co technologicznie stoi o krok od budowania modeli świata przewidujących przyszłe stany fizyczne. Sinha całą karierę spędził na przesuwaniu granic multimodalnych modeli generatywnych. Jak sam przyznał, robotyka zbyt długo była traktowana w świecie AI jako „obywatel drugiej kategorii”, gdzie dane z robotów były jedynie „cienką warstwą lukru nałożoną na gotowy model”. Nowe laboratorium chce to odwrócić, traktując dane ucieleśnione jako fundament, a nie dodatek.
Strategia 1X opiera się na „kole zamachowym danych” (data flywheel):
- Start: Media w skali webowej, nagrania z perspektywy pierwszej osoby (egocentric) i dane z symulacji.
- Dodatek: Precyzyjne dane z robotów sterowanych zdalnie przez operatorów.
- Wdrożenie: Flota humanoidów NEO zbierająca dane w świecie rzeczywistym.
- Powtórka: Robot zbiera dane, model staje się lepszy, robot działa sprawniej.
Sojusz budowniczych światów
1X nie jest osamotnione w swoich przekonaniach. Obóz modeli świata ma kilku potężnych graczy, nawet jeśli nie wszyscy budują dwunożne roboty.
System Full Self-Driving (FSD) od Tesli to prawdopodobnie najsłynniejsze praktyczne zastosowanie tej koncepcji. FSD polega na „Modelu Świata”, który przewiduje prawdopodobne ruchy każdego samochodu, rowerzysty i pieszego, uruchamiając wewnętrzną symulację możliwych scenariuszy, by podjąć decyzję o manewrze. To nie jest tylko reagowanie; to antycypacja.
Yann LeCun, legenda AI stojąca obecnie na czele AMI Labs (po latach w Meta), od lat głośno mówi o tym, że LLM-y są „fundamentalnie niekompletne”, bo brakuje im wewnętrznego modelu funkcjonowania świata. Jego prace nad architekturami JEPA (Joint Embedding Predictive Architectures) mają na celu budowę modeli uczących się zdrowego rozsądku poprzez obserwację i przewidywanie wideo – co jest rdzeniem filozofii 1X.
Droga wybrukowana petabajtami
Ruch 1X to gra o wysoką stawkę. Budowa fundamentalnego modelu świata od zera to przedsięwzięcie astronomicznie drogie i żarłoczne na dane. Podczas gdy obóz VLA zyskuje ogromną przewagę, stając na ramionach gigantów takich jak Google czy OpenAI, 1X decyduje się kopać własne fundamenty.
Sukces 1X World Model Lab zależy od tego, czy uda się rozkręcić wspomniane „koło zamachowe danych” na masową skalę. Jeśli im się uda, stworzą potężną barierę wejścia dla konkurencji i generację robotów o inteligencji znacznie bardziej odpornej i uniwersalnej niż ich odpowiedniki oparte na VLA. Jeśli polegną, staną się przestrogą dla tych, którzy odrzucili pragmatyczne skróty na rzecz eleganckiego, ale niemożliwie trudnego ideału.
Linie frontu zostały wytyczone. Czy przyszłość robotyki to sprytne rozszerzenie rewolucji LLM, czy może wymaga zupełnie nowego początku? Branża z zapartym tchem obserwuje, czy odważny zakład 1X o budowę świata od zera się opłaci, czy też firma utknie, próbując „dotuningować” swój bilans finansowy.
