Alors que vous pensiez que l’appareil photo de votre smartphone ne servait qu’à immortaliser des souvenirs de concerts flous, des chercheurs viennent de le transformer en un véritable scanner 3D en temps réel. Robbyant, la division dédiée à l’IA incarnée (embodied AI) d’Ant Group, vient de lancer en open-source LingBot-Map, un nouveau modèle de fondation 3D capable de reconstruire des environnements complexes et à grande échelle à partir d’un simple flux vidéo. Le plus impressionnant ? Il tourne à une cadence de 20 images par seconde, une prouesse qui fait passer les méthodes de photogrammétrie traditionnelles pour de la figuration.
Le secret de cette rapidité réside dans une architecture inédite baptisée Geometric Context Transformer (GCT). Il ne s’agit pas d’un simple module transformer greffé sur un problème de vision. Le GCT a été spécifiquement conçu pour s’attaquer au talon d’Achille des systèmes SLAM monoculaires (à caméra unique) : la dérive. Il gère intelligemment les données géométriques grâce à trois mécanismes d’attention parallèles : un contexte ancré pour stabiliser les coordonnées, une fenêtre de référence de pose locale pour la précision des détails, et une mémoire de trajectoire pour corriger les erreurs sur les longues distances. Cela permet à LingBot-Map de traiter des séquences dépassant les 10 000 images avec une précision que Robbyant qualifie de « quasi inchangée ». Le projet est d’ores et déjà disponible sur GitHub. Lien : Robbyant/lingbot-map

Les performances annoncées sont, disons-le franchement, audacieuses. Sur le très exigeant jeu de données Oxford Spires, LingBot-Map affiche une erreur de trajectoire absolue de seulement 6,42 mètres, soit une amélioration de près de 2,8x par rapport à la meilleure méthode de streaming actuelle. Il surpasse même des solutions de traitement hors-ligne pourtant bien plus gourmandes en ressources. Sur le benchmark ETH3D, il a obtenu un score F1 de 98,98, pulvérisant le second de plus de 21 points. Pour les amateurs de détails techniques pointus, la méthodologie complète est détaillée dans un article publié sur arXiv. Lien : Lire l’article sur arXiv
Pourquoi est-ce une révolution ?
LingBot-Map marque une étape cruciale vers la démocratisation de l’intelligence spatiale. En éliminant le besoin de capteurs LiDAR onéreux ou de systèmes multicaméras complexes, il ouvre la voie à une perception 3D haute performance et à bas coût pour la robotique, les véhicules autonomes et la réalité augmentée. Il ne s’agit pas seulement de générer de jolis nuages de points, mais d’offrir aux machines une compréhension continue et en temps réel du monde physique. En tant que « modèle de fondation 3D », il s’inscrit dans cette tendance lourde de l’IA : créer des systèmes qui ne se contentent pas de traiter du texte ou des images, mais qui perçoivent, naviguent et interagissent avec des environnements complexes et non structurés — la pierre angulaire du futur de l’IA incarnée.
