Microsoft y su ambicioso plan: un cerebro para cada robot

Seamos sinceros, cuando uno piensa en Microsoft, probablemente le vienen a la cabeza programas que hacen girar los escritorios de medio mundo, no los robots que un día los construirán. La trayectoria de la compañía en robótica ha sido… intermitente. Muchos de nosotros todavía tenemos algún rincón polvoriento de nuestra memoria reservado para el Microsoft Robotics Developer Studio, un intento de 2006 de crear un “Windows para robots” que, hay que decirlo, se desinfló. Fue un esfuerzo noble, sí, pero en el fondo, una plataforma buscando un problema que el mercado estuviera listo para resolver.

Pero esto es 2026. El mundo ha cambiado. Microsoft, hipervitaminada por su profunda alianza con OpenAI, ya no es solo un gigante del software; es un coloso de la inteligencia artificial. Y ahora, se lanza a la robótica con un envite mucho más ambicioso. Esta vez, la cosa no va solo de ofrecer un kit de desarrollo. Se trata de construir un cerebro único y universal —un modelo fundacional para el mundo físico que podría impulsar desde un brazo robótico multifuncional en una fábrica hasta un asistente humanoide. El objetivo es, por fin, salvar la brecha entre la inteligencia digital y la acción física, un reto conocido como IA encarnada.

De los modelos de lenguaje a la ‘IA Física’

Durante años, los robots han sido increíblemente eficaces en entornos estructurados. Una cadena de montaje automotriz es un paraíso para un robot: cada pieza está en su lugar predecible, cada tarea es repetitiva y el margen de error es nulo. Pero en el momento en que sacas a ese robot de su jaula y lo pones en el caótico e impredecible mundo humano, se convierte en un pisapapeles muy caro. Y ese es, precisamente, el problema que Microsoft está atacando.

La gran idea de la compañía es crear lo que ellos llaman “IA Física”, aprovechando los mismos principios que hacen tan potentes a modelos como GPT-4. La nueva estrella de esta iniciativa es Rho-alpha, el primer modelo robótico de Microsoft construido a partir de su serie Phi de modelos de visión-lenguaje. Como bien resume Ashley Llorens, vicepresidente de Microsoft Research, se trata de permitir que los sistemas “perciban, razonen y actúen con una autonomía creciente junto a los humanos en entornos mucho menos estructurados”.

En esencia, quieren construir un modelo que no solo entienda la orden “recoge la caja azul”, sino que también comprenda la física de levantarla, el sentido común de que no debes aplastarla, y la capacidad de adaptarse si la caja está ligeramente fuera de lugar. Es un salto de instrucciones rígidas y preprogramadas a una inteligencia fluida y adaptable.

La ventaja VLA+: todo está en el tacto

La clave de bóveda de Rho-alpha reside en su arquitectura, que Microsoft describe como un modelo de Visión-Lenguaje-Acción Plus (VLA+). A diferencia de modelos anteriores de competidores como Google DeepMind que se basan principalmente en la visión y el lenguaje (VLA), Rho-alpha añade un sentido crucial: el tacto. Al incorporar la detección táctil, el modelo puede comprender los estados de contacto de los objetos y realizar manipulaciones delicadas —como enchufar un cable o girar un dial— que son casi imposibles solo con la vista.

Por supuesto, construir un modelo así choca con el mayor cuello de botella en robótica: una escasez masiva de datos de calidad. No se puede rastrear internet en busca de billones de ejemplos de un robot recogiendo un destornillador. Para resolver esto, Microsoft se apoya firmemente en la simulación.

“Entrenar modelos fundacionales que puedan razonar y actuar requiere superar la escasez de datos diversos y del mundo real”, afirma Deepu Talla, Vicepresidente de Robótica y Edge AI en NVIDIA. “Al aprovechar NVIDIA Isaac Sim en Azure para generar conjuntos de datos sintéticos físicamente precisos, Microsoft Research está acelerando el desarrollo de modelos versátiles como Rho-alpha.”

Esta combinación de datos sintéticos generados en simulación con demostraciones físicas en el mundo real es la clave para entrenar estos modelos a escala. Cuando el robot, inevitablemente, mete la pata, un operador humano puede corregirlo con un ratón 3D, y el sistema aprende de esa retroalimentación en tiempo real.

Un sistema operativo para la inteligencia encarnada

Si Microsoft tiene éxito, las implicaciones son descomunales. Un modelo robótico de propósito general podría funcionar como un sistema operativo basado en la nube para el hardware. En lugar de que cada empresa de robótica construya su propia y compleja pila de IA desde cero, podrían licenciar un modelo fundacional altamente capaz de Microsoft y centrarse en crear un hardware mejor. Esto reduciría drásticamente la barrera de entrada y podría desencadenar una explosión cámbrica de nuevas formas y aplicaciones robóticas.

Esto coloca a Microsoft en competencia directa con otros titanes tecnológicos que tienen la misma idea. NVIDIA, con su Project GR00T, está construyendo un modelo fundacional similar, aprovechando su dominio en el hardware de IA y su plataforma de simulación Omniverse para crear una jugada de ecosistema potente. Tesla está adoptando un enfoque de integración vertical con Optimus, apostando a que su vasto tesoro de datos de conducción del mundo real le dará una ventaja en la comprensión del mundo físico. Y Google ha sido una potencia en investigación en este espacio durante años.

La estrategia de Microsoft parece ser una estrategia de plataforma. Al poner Rho-alpha a disposición a través de un programa de acceso anticipado y, más tarde, a través de Microsoft Foundry, invita a sus socios a construir sobre sus cimientos. Este enfoque colaborativo, respaldado por la inmensa escala de la infraestructura en la nube de Azure, es la ventaja principal de Microsoft.

El sueño de un robot de propósito general todavía dista mucho de ser una realidad. Los desafíos de la física del mundo real, la seguridad y el coste son monumentales. Pero por primera vez, el software empieza a parecer plausible. El ambicioso empuje de Microsoft hacia la “IA Física” no es solo otro proyecto de investigación; es una señal clara de que la carrera para construir el cerebro que impulsará la próxima generación de máquinas está en plena ebullición. Y esta vez, Microsoft es un contendiente muy, muy serio.