Ant Group's New AI Turns Single Videos into 3D Worlds in Real-Time

Justo cuando pensabas que la cámara de tu móvil solo servía para perpetuar fotos borrosas de conciertos, la ciencia ha decidido convertirla en un escáner 3D profesional en tiempo real. Robbyant, la división de IA física (embodied AI) de Ant Group, acaba de liberar el código de LingBot-Map, un nuevo modelo fundacional 3D capaz de reconstruir entornos detallados a gran escala a partir de un simple vídeo en streaming. ¿Lo mejor de todo? Lo hace a unos vertiginosos 20 fotogramas por segundo, una velocidad que hace que los métodos tradicionales de fotogrametría parezcan ir a pedales.

El ingrediente secreto de esta receta es una arquitectura innovadora llamada Geometric Context Transformer (GCT). No estamos ante el típico Transformer metido con calzador en un problema de visión; el GCT ha sido diseñado específicamente para atacar el talón de Aquiles de los sistemas SLAM monoculares (de una sola cámara): la deriva o drift. El sistema gestiona la información geométrica mediante tres mecanismos de atención paralelos: un contexto de anclaje para una base de coordenadas estable, una ventana de referencia de pose local para los detalles más finos y una memoria de trayectoria para corregir errores en largas distancias. Esto permite que LingBot-Map procese secuencias de más de 10.000 fotogramas con una precisión que, según Robbyant, se mantiene “prácticamente inalterada”. El proyecto ya está disponible en GitHub. Hipervínculo: Robbyant/lingbot-map

A diagram showing the Geometric Context Transformer architecture of LingBot-Map.

Las cifras de rendimiento son, sinceramente, de infarto. En el exigente conjunto de datos Oxford Spires, LingBot-Map logró un Error de Trayectoria Absoluto de apenas 6,42 metros, lo que supone una mejora de casi 2,8 veces respecto al mejor método de streaming actual. De hecho, llega a superar a métodos offline consolidados que tienen el lujo de procesar todas las imágenes a la vez. En el benchmark ETH3D, alcanzó una puntuación F1 de 98,98, pulverizando al segundo clasificado por más de 21 puntos de diferencia. Para quienes quieran sumergirse en los detalles técnicos más densos, la metodología completa está detallada en un artículo en arXiv. Hipervínculo: Read the paper on arXiv

¿Por qué debería importarnos?

LingBot-Map representa un paso de gigante hacia la democratización de la inteligencia espacial. Al eliminar la necesidad de costosos sensores LiDAR o complejos despliegues multicámara, abre la puerta a una percepción 3D de alto rendimiento y bajo coste para la robótica, los vehículos autónomos y la realidad aumentada. No se trata solo de crear “nubes de puntos” bonitas; se trata de dotar a las máquinas de una comprensión continua y en tiempo real del mundo físico. Como “modelo fundacional 3D”, forma parte de una tendencia imparable: crear una IA que no solo procese texto o imágenes, sino que sea capaz de percibir, navegar e interactuar con entornos complejos y no estructurados, la piedra angular del futuro de la IA física.