Durante anos, a indústria da robótica operou sob uma premissa tão simples quanto frustrante: primeiro constrói-se o robô, depois fabrica-se um cérebro sob medida para ele. Quer mudar o braço mecânico? Precisa de um novo conjunto de rodas? Surgiu uma tarefa diferente? Hora de voltar à estaca zero. Essa abordagem artesanal e fragmentada nos deixou com um exército de especialistas, mas nenhum generalista de fato. É por isso que o seu Roomba não consegue preparar um sanduíche e um braço robótico de fábrica não sabe passear com o cachorro. Mas e se uma única IA pudesse aprender a pilotar todos eles?
Esse é o objetivo audacioso da Google DeepMind, onde Carolina Parada, chefe da equipe de robótica, lidera uma revolução silenciosa. Em uma entrevista recente e abrangente ao The Humanoid Hub, Parada detalhou uma visão que substitui a programação customizada por uma inteligência universal e adaptável. O “norte magnético” do time, diz ela, é nada menos que “resolver a AGI (Inteligência Artificial Geral) no mundo físico”. Enquanto o resto do mundo se maravilhava com as poesias do ChatGPT em 2022, Parada observa que sua equipe não ficou tão surpresa, já que trabalhavam internamente com grandes modelos de linguagem (LLMs) há tempos. A verdadeira lição, segundo ela, foi perceber o valor imenso de colocar a pesquisa nas mãos do público.
O Cérebro do Gemini no Corpo de um Robô
O motor que impulsiona essa ambição é o Gemini Robotics 1.5, a iteração mais recente do modelo fundamental da DeepMind para IA incorporada (embodied AI). Não se trata apenas de mais um chatbot conectado a um chassi. É um modelo autêntico de Visão-Linguagem-Ação (VLA), projetado do zero para perceber, raciocinar e agir no mundo físico — que é, por definição, caótico e imprevisível. “O Gemini Robotics adiciona a capacidade de raciocinar sobre espaços físicos, permitindo que os robôs tomem decisões no mundo real”, descreve a Google.

A atualização 1.5 foca em três pilares: generalização, interatividade e destreza. Mais importante ainda, ela introduz o que a DeepMind chama de “agentes físicos”. Este sistema utiliza um cérebro dividido em duas partes:
- Gemini Robotics-ER 1.5: O modelo de “Raciocínio Incorporado” (Embodied Reasoning) atua como o estrategista. Ele recebe um comando complexo, como “limpe este líquido derramado”, e o divide em etapas lógicas. Ele pode até usar ferramentas como o Google Search para buscar informações que não possui.
- Gemini Robotics 1.5 (VLA): Este é o córtex motor. Ele recebe o plano detalhado do modelo de raciocínio e o traduz em ações físicas precisas para qualquer “corpo” em que esteja instalado.
Essa arquitetura permite que o robô “pense antes de agir”, gerando um monólogo interno para processar um problema, tornando suas decisões mais transparentes e, francamente, muito mais inteligentes.
O Santo Graal: Transferência entre Corpos (Cross-Embodiment)
O salto mais significativo, no entanto, é o que Parada chama de “transferência entre corpos” (cross-embodiment transfer). A ideia é que uma habilidade aprendida por um robô possa ser transferida sem atritos para uma máquina completamente diferente, sem necessidade de novo treinamento. “É realmente o mesmo conjunto de parâmetros (weights) que funciona em todos eles”, explica Parada, referindo-se a testes em plataformas tão distintas quanto o sistema de braços duplos ALOHA, o robô Franka e o humanoide Apollo, da Apptronik.
Isso representa uma ruptura radical com a norma da indústria. Uma tarefa aprendida por um robô sobre rodas poderia, em tese, ensinar um humanoide a realizar uma ação semelhante. Esta é a chave para escapar do ciclo infinito de desenvolvimento preso a uma única plataforma. “Acreditamos piamente em um futuro onde haverá um ecossistema riquíssimo com muitos tipos diferentes de robôs”, afirma Parada. “Se dizemos que queremos resolver a IA no mundo físico, para nós isso significa que ela precisa ser inteligente o suficiente para se manifestar em qualquer robô.”
Este conceito se baseia no trabalho anterior da DeepMind com modelos como o RT-X, treinado em um conjunto massivo de dados vindos de 22 tipos de robôs em 33 laboratórios acadêmicos. Aquele projeto demonstrou que o treinamento conjunto em hardwares diversos conferia ao modelo habilidades emergentes e uma melhor compreensão de relações espaciais. O Gemini Robotics 1.5 parece ser a evolução turbinada desse princípio.
Uma Mudança no Cronograma
Para os roboticistas, o sonho de uma máquina que pudesse simplesmente observar um humano e aprender sempre foi algo distante. “Antigamente, todos na equipe diziam: ‘ah, isso só vai acontecer depois que eu me aposentar’”, admite Parada. “Agora, estamos discutindo prazos reais: estamos falando de cinco anos? De dez?”
Essa aceleração é palpável. Embora Parada reconheça que os humanoides são um “formato importante” por terem sido projetados para o nosso mundo, ela contesta a ideia de que eles sejam o único formato relevante. A visão da DeepMind é agnóstica em relação ao hardware. A inteligência é o produto final, não a carcaça de metal que ela ocupa.
O desafio supremo? Nossas casas. Parada acredita que o ambiente doméstico será “uma das últimas fronteiras” para a robótica, justamente por ser desestruturado e imprevisível. O chão de uma fábrica é milimetricamente planejado; a cozinha de uma família é o oposto disso.
Um Cérebro para Todos Governar
A estratégia da DeepMind representa uma aposta fundamental: a de que o futuro da robótica não reside em um hardware melhor, mas em uma inteligência mais universal e escalável. Ao desconectar o “cérebro” de IA do “corpo” robótico, eles visam criar um modelo de fundação que aprende com cada robô simultaneamente, acumulando conhecimento através de uma frota global de máquinas.
É uma abordagem que pode, finalmente, quebrar o gargalo de “um robô, um cérebro” que limitou o setor por décadas. Não estamos apenas ganhando um robô mais esperto; estamos presenciando o nascimento de um piloto universal, pronto para assumir o controle de qualquer máquina que formos capazes de construir. A Rosie, a robô dos Jetsons, parece ter acabado de dar um salto gigantesco em direção à realidade.













