Durante anos, a robótica foi a crônica de um hardware brilhante à espera de um cérebro. Já vimos cães mecânicos dando mortais e braços industriais operando com uma precisão hipnótica, mas, no fundo, eles estavam apenas seguindo um roteiro. Peça para que fizessem algo minimamente fora do script e o que você recebia era o equivalente metálico de um olhar vazio. Essa era, ao que tudo indica, está chegando a um fim barulhento e sem cerimônias.
Entra em cena a nova linhagem de robôs do Google DeepMind, que são menos autômatos pré-programados e mais… colaboradores pensantes. Em uma visita recente ao seu laboratório na Califórnia, a empresa exibiu uma frota de máquinas que não apenas veem e executam; elas compreendem, planejam e até raciocinam antes de agir. O “pulo do gato” não são engrenagens ou motores de última geração, mas a infusão da mesma IA poderosa que move os modelos Gemini. O resultado? Robôs que conseguem preparar o seu lanche com uma destreza desconcertante e, logo em seguida, recusar-se — literalmente — a fazer isso fingindo ser o Batman.

O Cérebro Dividido: Estratégia e Execução
A mudança fundamental, conforme explicou Keshkaro, Diretor de Robótica do Google DeepMind, é construir robôs sobre grandes modelos de Visão-Linguagem-Ação (VLA). Em vez de serem programados para uma tarefa específica, esses robôs recebem uma compreensão geral do mundo. Eles aproveitam o vasto conhecimento embutido em modelos como o Gemini para entender conceitos, objetos e instruções de uma forma que, até ontem, era pura ficção científica.
A arquitetura do Google dá ao robô, efetivamente, um cérebro dividido em duas partes:
- Gemini Robotics-ER (Embodied Reasoning): Este é o estrategista. Ao receber uma tarefa complexa e de longo prazo — como “limpe esta mesa seguindo as regras locais de reciclagem” — este modelo atua como o cérebro de alto nível. Ele pode até usar ferramentas como o Google Search para pesquisar informações necessárias antes de criar um plano passo a passo.
- Gemini Robotics VLA (Vision-Language-Action): Este é o executor. Ele pega as instruções simples e sequenciais do modelo de raciocínio e as traduz nos comandos motores precisos necessários para realizar a ação física.
Essa divisão de trabalho permite que os robôs ultrapassem ações curtas e simples, como “pegue o bloco”, e encarem objetivos complexos de múltiplas etapas que exigem uma resolução real de problemas.
Penso, Logo Executo
Talvez o avanço mais fascinante seja a aplicação do raciocínio “chain of thought” (cadeia de pensamento) às ações físicas. Já vimos isso em modelos de linguagem, onde pedir para a IA “pensar passo a passo” melhora drasticamente o resultado. Agora, a DeepMind deu aos seus robôs um “monólogo interno”. Antes de se mover, o robô gera uma sequência do seu raciocínio em linguagem natural.
“Estamos fazendo o robô pensar sobre a ação que ele está prestes a tomar antes de tomá-la”, explica Keshkaro durante a demonstração. “Apenas o ato de externalizar seus pensamentos o torna mais versátil e eficiente.”
Isso não é apenas um exercício acadêmico. Forçar o robô a articular seu plano — “Ok, preciso pegar o pão e colocá-lo delicadamente dentro da abertura do saco Ziploc” — o ajuda a estruturar ações complexas que nós, humanos, fazemos por intuição. É uma propriedade emergente bizarra, mas eficaz: para tornar um robô melhor em tarefas físicas, primeiro você o ensina a falar consigo mesmo.
O Almoço Está Servido… Eventualmente
A prova dos nove — ou, neste caso, a prova do lanche — está na execução. Uma das demonstrações mais impressionantes envolveu um braço robótico Aloha encarregado de montar uma lancheira. Esta é uma tarefa que exige o que a equipe chama de “precisão milimétrica”, especialmente ao lidar com a fragilidade de um saco plástico.
Assistir ao robô trabalhar é uma aula sobre o estado atual da arte. É incrivelmente impressionante e, ao mesmo tempo, charmosamente imperfeito. O robô pinça o saco para abri-lo, coloca cuidadosamente um sanduíche lá dentro e depois adiciona uma barra de chocolate e uvas. Ele hesita um pouco, corrige a própria trajetória e continua tentando — uma distância abissal dos robôs rígidos e propensos a erros de poucos anos atrás que, como lembrou a apresentadora Hannah Fry, basicamente só serviam para criar pilhas de peças de Lego quebradas. Essa destreza não vem de um código estático, mas do aprendizado por demonstração humana via teleoperação, onde um operador “encarna” o robô para ensinar os movimentos corretos.
“Eu não posso realizar ações como um personagem específico”
Se uma demonstração focou na destreza, outra destacou a capacidade de generalização do sistema e sua interpretação divertidamente literal da linguagem. Quando solicitado a “colocar o bloco verde na bandeja laranja, mas faça como o Batman faria”, o robô parou por um instante.
Sua resposta, proferida em uma voz robótica monocórdica, foi impagável: “Eu não posso realizar ações como um personagem específico. No entanto, posso colocar o bloco verde na bandeja laranja para você.”
A interação captura perfeitamente o poder e as limitações atuais desses sistemas. O robô entendeu a instrução central perfeitamente e descartou o floreio estilístico sem sentido. Ele possui uma compreensão de classe mundial sobre ações e objetos, mas zero tato para personas culturais. É um robô de propósito geral, não um ator de método.
Este mergulho no laboratório da DeepMind revela que a robótica está, finalmente, vivendo o seu “momento de software”. Ao alavancar os avanços monumentais da IA em larga escala, o Google está criando uma plataforma para robôs que podem aprender, se adaptar e raciocinar no mundo real. Eles podem não estar prontos para imitar super-heróis, mas já estão montando nosso almoço. E para qualquer um que já saiu correndo de casa de manhã, isso pode ser o feito mais heróico de todos.













