AGIBOTs 2B-Weltmodell an der Spitze: Physik schlägt Pixel

In einem klassischen David-gegen-Goliath-Szenario – nur mit deutlich mehr GPUs – hat sich ein vergleichsweise winziges Weltmodell von AGIBOT mit nur zwei Milliarden Parametern an die Spitze des WorldArena-Benchmarks katapultiert. Das Modell mit dem Namen Genie Envisioner-Sim 2.0 (GE-Sim 2.0) belegt nun Platz 1 und blickt auf die massiven Video-KI-Engines herab, die sonst das mediale Rampenlicht für sich beanspruchen. Es zeigt sich einmal mehr: Beeindruckende Videos zu generieren ist das eine; einem Roboter beizubringen, beim Hantieren mit einem Handtuch nicht die Orientierung zu verlieren, ist eine ganz andere Liga.

Hier geht es nicht um das nächste virale Katzenvideo. GE-Sim 2.0 ist ein Physical Simulator mit geschlossenem Regelkreis (Closed-Loop), konzipiert als knallhartes Boot-Camp für echte Roboter. Das System beherrscht eine „High-Consistency Multi-View Generation“. Das bedeutet: Was die Kopfkamera des Roboters sieht, passt haargenau zu den Bildern der Handgelenkkameras – selbst wenn Objekte im toten Winkel verschwinden oder sich in einem Spiegel reflektieren. Es ist genau diese obsessive Liebe zum Detail, die eine nützliche Simulation von einem digitalen Fiebertraum unterscheidet.

Um das Ganze praxistauglich zu machen, hat AGIBOT drei massive Flaschenhälse in der Simulation beseitigt. Erstens: Ein „Proprioceptive State Expert“ dekodiert physische Gelenkwinkel direkt aus dem Videomaterial und gibt dem Roboter so das entscheidende Feedback, um nicht im mechanischen Chaos zu versinken. Zweitens: Ein „VLM-Based World Judge“ fungiert als automatisierter Schiedsrichter, der Simulationsläufe unermüdlich bewertet, sodass menschliche Ingenieure das nicht mehr selbst tun müssen. Und schließlich gelang es durch ein „distribution-matching distillation framework“, die Inferenzzeit drastisch zu senken: Ein komplexer Multi-View-Rollout mit 25 Frames wird in rasanten 2,3 Sekunden gerendert.

Warum ist das wichtig?

Weil es in der echten Welt funktioniert. Physische Roboter, die mit den gefilterten synthetischen Daten von GE-Sim 2.0 trainiert wurden, verzeichneten einen massiven Sprung von 15 % bei der Erfolgsquote in der Realität – und das bei Aufgaben mit komplexen physischen Kontakten. Das ist ein entscheidender Schritt, um das Problem des Datenmangels bei verkörperter KI (Embodied AI) zu lösen. Während andere Modelle auf visuellen Glanz setzen, baut AGIBOT handfeste, physische Welt-Simulatoren, die Roboter klüger und schneller machen. Die Ära, in der Dinge nur real aussehen mussten, ist vorbei; jetzt zählt, dass sie sich real verhalten.

Das Projekt ist Open-Source, sodass Sie selbst tief in die technischen Details eintauchen können. Hyperlink: Schauen Sie sich den Code auf GitHub an oder lesen Sie das vollständige Paper auf arXiv.