La visión de DeepMind: Una IA para dominar a todos los robots

Durante años, la industria robótica ha operado bajo una premisa tan simple como frustrante: se construye un robot y, acto seguido, se le diseña un cerebro a medida. ¿Un brazo diferente? ¿Un nuevo juego de ruedas? ¿Una tarea distinta? Pues a volver a la casilla de salida. Este enfoque minucioso y artesanal nos ha legado un ejército de especialistas, pero ni rastro de un auténtico generalista. Es la razón por la que tu Roomba no puede prepararte un sándwich, y un brazo de fábrica no puede sacar a pasear al perro. Pero, ¿y si una única IA pudiera aprender a pilotarlos a todos?

Esa es la ambiciosa meta de Google DeepMind, donde Carolina Parada, al frente del equipo de robótica, lidera una revolución silenciosa. En una reciente y exhaustiva entrevista con The Humanoid Hub, Parada desgranó una visión que cambia la programación a medida por una inteligencia universal y adaptable. La “estrella polar” del equipo, afirma, no es otra que “resolver la AGI en el mundo físico”. Mientras el resto del planeta quedaba hipnotizado por la poesía de ChatGPT en 2022, Parada señala que su equipo se sorprendió menos, ya que llevaban tiempo trabajando con modelos de lenguaje grandes de forma interna. La verdadera lección, sintió, fue el inmenso valor de poner la investigación en manos del público.

El cerebro de Gemini, en el cuerpo de un robot

El motor que impulsa esta ambición es Gemini Robotics 1.5, la última iteración del modelo fundacional de DeepMind para la IA encarnada (embodied AI). Esto no es un chatbot más enchufado a un chasis. Es un verdadero modelo de visión-lenguaje-acción (VLA), diseñado desde sus cimientos para percibir, razonar y actuar en el caótico e impredecible mundo físico. “Gemini Robotics añade la capacidad de razonar sobre espacios físicos, permitiendo a los robots actuar en el mundo real”, según describe Google.

Video thumbnail

La actualización 1.5 se centra en tres pilares: la generalización, la interactividad y la destreza. Y lo que es más importante, introduce lo que DeepMind denomina “agentes físicos”. Este sistema utiliza un cerebro bicéfalo:

  • Gemini Robotics-ER 1.5: El modelo de “Razonamiento Encarnado” (Embodied Reasoning) actúa como el planificador estratégico. Recibe una orden compleja, como “limpia este derrame”, y la desglosa en pasos lógicos. Incluso puede usar herramientas como Google Search para buscar información que no posee.
  • Gemini Robotics 1.5 (VLA): Esta es la corteza motora, que toma el plan paso a paso del modelo de razonamiento y lo traduce en acciones físicas precisas, sin importar el cuerpo robótico que lo aloje.

Esta arquitectura permite al robot “pensar antes de actuar”, generando un monólogo interno para razonar a través de un problema, haciendo sus decisiones más transparentes y, para ser sinceros, mucho más inteligentes.

El Santo Grial: la transferencia entre cuerpos robóticos

El salto más significativo, sin embargo, es lo que Parada denomina “transferencia entre cuerpos robóticos” (cross-embodiment transfer). La idea es que una habilidad aprendida por un robot pueda transferirse sin fisuras a una máquina completamente diferente, sin necesidad de volver a entrenar. “Realmente es el mismo conjunto de pesos el que funciona en todos ellos”, explica Parada, refiriéndose a pruebas realizadas en plataformas tan diversas como el robot de doble brazo ALOHA, el robot Franka y el humanoide Apollo de Apptronik.

Esto supone una ruptura radical con la norma de la industria. Una tarea aprendida por un robot con ruedas podría, en teoría, informar cómo un humanoide realiza una acción similar. Esta es la clave para escapar del ciclo interminable de desarrollo para una única plataforma. “Creemos firmemente en un futuro donde habrá un ecosistema muy rico y diverso de muchos tipos diferentes de robots”, afirma Parada. “Si decimos que queremos resolver la IA en el mundo físico, para nosotros eso significa que tiene que ser lo suficientemente inteligente como para encarnarse en cualquier robot”.

Este concepto se basa en el trabajo previo de DeepMind con modelos como RT-X, que fue entrenado con un gigantesco conjunto de datos recopilados de 22 tipos de robots distintos en 33 laboratorios académicos. Ese proyecto demostró que el entrenamiento conjunto en hardware diverso dotó al modelo de habilidades emergentes y una mejor comprensión de las relaciones espaciales. Gemini Robotics 1.5 parece ser la evolución sobrealimentada de este principio.

Un horizonte temporal en constante movimiento

Para los roboticistas, el sueño de una máquina que simplemente pueda observar a un humano y aprender siempre ha sido una quimera. “Antes, todos en el equipo pensaban: ‘bah, esto pasará después de que me jubile’”, admite Parada. “Y ahora, de hecho, estamos teniendo discusiones sobre: ¿De qué plazos estamos hablando? ¿Cinco años? ¿Diez?”.

Esta aceleración es palpable. Si bien Parada reconoce que los humanoides son un “factor de forma importante” porque están diseñados para nuestro mundo, se rebela contra la idea de que sean el único factor de forma relevante. La visión de DeepMind es agnóstica al hardware. La inteligencia es el producto, no la carcasa metálica que ocupa.

¿El desafío definitivo? Nuestros hogares. Parada cree que el hogar será “una de las últimas fronteras” para la robótica, precisamente porque es un entorno tan desestructurado y caótico. Una fábrica es predecible; una cocina familiar, no tiene nada de eso.

Un cerebro para gobernarlos a todos

La estrategia de DeepMind representa una apuesta fundamental: que el futuro de la robótica no reside en un hardware mejor, sino en una inteligencia más universal y escalable. Al desacoplar el “cerebro” de la IA del “cuerpo” robótico, buscan crear un modelo fundacional capaz de aprender de cada robot simultáneamente, acumulando su conocimiento en una flota global de máquinas.

Es un enfoque que podría romper, por fin, el cuello de botella del “un robot, un cerebro” que ha constreñido el campo durante décadas. No solo estamos obteniendo un robot más inteligente; estamos presenciando el nacimiento de un piloto universal, listo para encarnarse en cualquier máquina que podamos construir. El mayordomo robot de Los Supersónicos, al parecer, acaba de dar un salto de gigante, un salto “inter-corporal” hacia el futuro.