Durante años, la robótica ha sido la historia de un hardware brillante a la espera de un cerebro. Hemos visto perros mecánicos dar volteretas y brazos de fábrica trabajar con una precisión hipnótica, pero la verdad es que la mayoría se limitaban a repetir un guion preestablecido. Si les pedías algo nuevo, te encontrabas con el equivalente metálico y silencioso de una mirada perdida. Esa era, al parecer, está llegando a un abrupto y ruidoso final.
Entra en escena la nueva hornada de robots de Google DeepMind, que son menos autómatas preprogramados y más… colaboradores reflexivos. En una reciente visita a su laboratorio de California, la compañía mostró una flota de máquinas que no solo ven y hacen; comprenden, planifican e incluso piensan antes de actuar. La clave de todo no son mejores engranajes o motores, sino la infusión de la misma potente inteligencia artificial que impulsa sus modelos Gemini. El resultado son robots que pueden prepararte el almuerzo con una destreza inquietante y, acto seguido y de forma hilarante, negarse literalmente a hacerlo como Batman.

El cerebro dual detrás de la fuerza
El cambio fundamental, tal como lo explica Keshkaro, Director de Robótica en Google DeepMind, reside en construir robots sobre modelos de Visión-Lenguaje-Acción (VLA) a gran escala. En lugar de ser programados para una tarea específica, a estos robots se les dota de una comprensión general del mundo. Aprovechan el vasto conocimiento incrustado en modelos como Gemini para comprender conceptos, objetos e instrucciones de una manera que antes solo veíamos en la ciencia ficción.
La arquitectura de Google dota eficazmente al robot de un cerebro dividido en dos partes:
- Gemini Robotics-ER (Embodied Reasoning): Este es el planificador estratégico. Cuando se le encomienda una tarea compleja y de largo alcance —como “limpia esta mesa siguiendo las normas de reciclaje locales”—, este modelo actúa como el cerebro de alto nivel. Incluso puede usar herramientas como Google Search para buscar la información necesaria antes de elaborar un plan paso a paso.
- Gemini Robotics VLA (Vision-Language-Action): Este es el ejecutor. Toma las instrucciones sencillas y secuenciales del modelo de razonamiento y las traduce en los comandos motores precisos necesarios para realizar la acción física.
Esta división del trabajo permite a los robots ir más allá de acciones simples y de corto alcance como “coge el bloque” y abordar objetivos complejos y de varios pasos que requieren una verdadera resolución de problemas.
Pensar para actuar
Quizás el avance más fascinante sea la aplicación del razonamiento de “cadena de pensamiento” a las acciones físicas. Ya lo hemos visto en los modelos de lenguaje, donde pedir a una IA que “piense paso a paso” mejora su resultado. DeepMind ha dotado ahora a sus robots de un “monólogo interior”. Antes de que un robot se mueva, genera una secuencia de su razonamiento en lenguaje natural.
“Estamos haciendo que el robot piense en la acción que está a punto de realizar antes de llevarla a cabo”, explica Keshkaro en la visita guiada en vídeo. “Solo este acto de exteriorizar sus pensamientos lo hace más general y con un mejor rendimiento”.
Esto no es solo un ejercicio académico. Forzar al robot a articular su plan —“Vale, tengo que coger el pan y colocarlo con cuidado dentro de la pequeña abertura de la bolsa Ziploc”— le ayuda a estructurar acciones complejas que los humanos realizamos de forma intuitiva. Es una propiedad emergente extraña pero efectiva: para que un robot mejore en tareas físicas, primero le enseñas a hablar consigo mismo.
El almuerzo está servido… con paciencia
La prueba, como se suele decir, está en el resultado —o, en este caso, en la fiambrera preparada—. Una de las demostraciones más convincentes involucró un brazo robótico Aloha encargado de preparar una fiambrera. Esta es una tarea que requiere lo que el equipo denomina “precisión milimétrica”, especialmente al lidiar con una endeble bolsa Ziploc.
Ver al robot trabajar es una clase magistral sobre el estado actual de la técnica. Es increíblemente impresionante, aunque encantadoramente imperfecto. El robot pellizca hábilmente la bolsa para abrirla, coloca con cuidado un sándwich dentro y luego añade una tableta de chocolate y unas uvas. Titubea ligeramente, se corrige y sigue intentándolo, un mundo de diferencia respecto a los robots frágiles y propensos a errores de hace solo unos años que, como recordaba la presentadora Hannah Fry, se limitaban a hacer montañas de Lego rotos. Esta destreza no se aprende de un código rígido, sino de la demostración humana a través de teleoperación, donde un operador “encarna” al robot para enseñarle los movimientos correctos.
“No puedo realizar acciones como un personaje específico”
Mientras una demostración mostraba destreza, otra puso de manifiesto la capacidad de generalización del sistema y su interpretación curiosamente literal del lenguaje. Cuando se le pidió que “pusiera el bloque verde en la bandeja naranja, pero que lo hiciera como lo haría Batman”, el robot se detuvo.
Su respuesta, pronunciada con voz robótica inexpresiva, no tuvo precio: “No puedo realizar acciones como un personaje específico. Sin embargo, puedo poner el bloque verde en la bandeja naranja por usted”.
El intercambio captura a la perfección el poder y las limitaciones actuales de estos sistemas. El robot entendió la instrucción principal a la perfección y descartó el adorno estilístico sin sentido. Posee una comprensión de clase mundial de acciones y objetos, pero cero noción de personajes culturales. Es un robot de propósito general, no un actor de método.
Este vistazo al laboratorio de DeepMind revela que el campo de la robótica finalmente está viviendo su “momento software”. Al aprovechar los avances monumentales en IA a gran escala, Google está creando una plataforma para robots que pueden aprender, adaptarse y razonar en el mundo real. Puede que no estén listos para hacerse pasar por superhéroes, pero ya nos están preparando el almuerzo. Y para cualquiera que alguna vez haya salido corriendo por la puerta por la mañana, esa podría ser la hazaña más heroica de todas.













