W klasycznym starciu Dawida z Goliatem – tyle że z potężnym zapleczem GPU w tle – stosunkowo niewielki, liczący zaledwie 2 miliardy parametrów model świata od AGIBOT właśnie rozstawił po kątach branżowych gigantów w benchmarku WorldArena. Model o nazwie Genie Envisioner-Sim 2.0 (GE-Sim 2.0) wskoczył na sam szczyt rankingu, patrząc z góry na potężne silniki do generowania wideo, które do tej pory okupowały światła jupiterów. Okazuje się bowiem, że tworzenie ładnych filmików to jedno, ale nauczenie robota, jak nie upuścić ręcznika, to zupełnie inna para kaloszy.
W tym przypadku nie chodzi o generowanie kolejnego wiralowego wideo z kotem. GE-Sim 2.0 to zamknięty symulator fizyczny, zaprojektowany jako poligon doświadczalny dla prawdziwych maszyn. System ten wyznacza nowe standardy w „wysokospójnym generowaniu wielowidokowym” (High-Consistency Multi-View Generation). W praktyce oznacza to, że obraz z kamery na głowie robota idealnie pokrywa się z tym, co widzą kamery na jego nadgarstkach – nawet jeśli obiekty znajdują się w martwym polu lub odbijają się w lustrze. To właśnie ta obsesyjna dbałość o szczegóły oddziela użyteczną symulację od cyfrowej halucynacji.
Aby przełożyć teorię na praktykę, inżynierowie z AGIBOT wyeliminowali trzy główne wąskie gardła symulacji. Po pierwsze, wprowadzili „Eksperta Stanu Proprioceptywnego” (Proprioceptive State Expert), który odczytuje fizyczne kąty stawów bezpośrednio z wideo, dając robotowi feedback niezbędny, by nie wpaść w mechaniczny chaos. Po drugie, „Sędzia Świata oparty na VLM” (VLM-Based World Judge) działa jak zautomatyzowany arbiter, bez wytchnienia oceniając przebiegi symulacji, dzięki czemu ludzie nie muszą już tego robić ręcznie. Wreszcie, dzięki zastosowaniu frameworku destylacji (distribution-matching distillation), udało się drastycznie skrócić czas inferencji – wygenerowanie złożonej, 25-klatkowej sekwencji z wielu kamer zajmuje teraz błyskawiczne 2,3 sekundy.
Dlaczego to ma znaczenie?
Ponieważ to realnie działa w terenie. Fizyczne roboty trenowane na przefiltrowanych, syntetycznych danych z GE-Sim 2.0 odnotowały potężny, 15-procentowy wzrost skuteczności w zadaniach wymagających precyzyjnego kontaktu z otoczeniem. To milowy krok w stronę rozwiązania problemu braku danych dla ucieleśnionej sztucznej inteligencji (embodied AI). Podczas gdy inne modele skupiają się na wizualnych fajerwerkach, AGIBOT buduje praktyczne symulatory świata fizycznego, dzięki którym roboty stają się mądrzejsze i szybsze. Era maszyn, które tylko „wyglądają” realistycznie, właśnie się kończy; zaczyna się era robotów, które potrafią realnie działać.
Projekt jest dostępny w modelu open-source, więc każdy może zajrzeć pod maskę. Linki: Sprawdź kod na GitHubie lub przeczytaj pełną publikację na arXiv.
