Dans un scénario classique de David contre Goliath — mais avec une armada de GPU en renfort — un « world model » de seulement 2 milliards de paramètres signé AGIBOT vient de bousculer la hiérarchie mondiale. Baptisé Genie Envisioner-Sim 2.0 (GE-Sim 2.0), le modèle s’est hissé à la première place du benchmark WorldArena, toisant de haut les mastodontes de la vidéo générative qui monopolisaient jusqu’ici l’attention. Car au fond, générer des vidéos esthétiques pour les réseaux sociaux est une chose ; apprendre à un robot à ne pas s’emmêler les pinceaux avec une serviette en est une autre.
Ici, l’objectif n’est pas de créer la prochaine vidéo de chat virale. GE-Sim 2.0 est un simulateur physique en boucle fermée conçu comme un véritable camp d’entraînement pour robots. Le système brille par sa « génération multi-vue à haute cohérence » : il garantit que ce que voit la caméra frontale du robot concorde parfaitement avec ce que perçoivent les caméras situées sur ses poignets, même lorsqu’un objet se trouve dans un angle mort ou se reflète dans un miroir. C’est ce souci obsessionnel du détail qui sépare une simulation utile d’un simple délire numérique.
Pour transformer l’essai, AGIBOT s’est attaqué à trois goulots d’étranglement majeurs de la simulation. D’abord, un « Expert d’État Proprioceptif » décode les angles d’articulation physiques directement à partir de la vidéo, offrant au robot un feedback crucial pour éviter de sombrer dans le chaos mécanique. Ensuite, un « Juge du Monde » basé sur les VLM (Vision-Language Models) fait office d’arbitre automatisé, évaluant inlassablement les performances de simulation pour épargner cette tâche aux ingénieurs. Enfin, grâce à un cadre de distillation par correspondance de distribution, ils ont drastiquement réduit le temps d’inférence, générant une séquence multi-vue complexe de 25 images en à peine 2,3 secondes.
Pourquoi est-ce une révolution ?
Parce que cela fonctionne concrètement sur le terrain. Les robots physiques entraînés avec les données synthétiques filtrées de GE-Sim 2.0 ont enregistré un bond spectaculaire de 15 % de leur taux de réussite lors de tâches impliquant de nombreux contacts physiques. C’est une étape décisive pour lever le verrou du manque de données en IA incarnée. Tandis que d’autres modèles se concentrent sur le “flair” visuel, AGIBOT bâtit des simulateurs de monde physique exploitables qui rendent les robots plus intelligents et plus rapides. L’ère du simple réalisme visuel s’achève ; celle de la réalité physique commence.
Le projet est open-source, et vous pouvez plonger vous-même dans les entrailles techniques de la bête. Liens utiles : Consulter le code sur GitHub ou lire l’étude complète sur arXiv.
