Skild AI ensina robôs a cozinhar apenas assistindo ao YouTube

Na grande — e muitas vezes desajeitada — maratona rumo à robótica de propósito geral, a indústria tem tropeçado repetidamente no mesmo obstáculo inconveniente: os dados. Enquanto os modelos de linguagem se banqueteiam com a internet inteira — um verdadeiro buffet livre de textos —, a robótica continua presa a uma dieta lenta, cara e dolorosamente limitada de teleoperação. Mas agora, uma startup chamada Skild AI decidiu parar de dar a “comida na boca” e simplesmente mostrar o cardápio aos seus robôs. A prova de conceito mais recente? Um braço robótico que prepara um prato de ovos mexidos após aprender a técnica apenas assistindo a um vídeo humano.

Isso não é apenas um truque para impressionar investidores. É um ataque direto ao que se tornou o problema central da IA física: o gargalo de dados. O método predominante de treinamento envolve operadores humanos “manuseando” uma máquina remotamente para coletar dados precisos de controle motor. Como a Skild AI aponta, essa estratégia carrega duas falhas fatais: falta diversidade, já que a maioria dos dados é colhida em laboratórios estéreis, e é matematicamente impossível escalá-la ao nível necessário para um verdadeiro modelo de fundação. Você simplesmente não consegue contratar humanos suficientes para pilotar robôs 24 horas por dia para gerar os trilhões de pontos de dados exigidos.

A “Pipeline” do YouTube para o Robô

Em vez de tentar construir uma fazenda de dados ainda maior, a Skild AI está explorando uma que já existe: a internet. O insight central da empresa é que a humanidade já criou um conjunto de dados de “escala de internet” para a robótica na forma de tutoriais no YouTube, hacks do TikTok e inúmeros outros vídeos instrutivos. A solução, escondida à vista de todos, é o aprendizado por observação — exatamente como nós, humanos, aprendemos. Não aprendemos a servir uma bebida calculando a dinâmica dos fluidos; observamos alguém fazer e nosso cérebro decifra o resto.

A Skild AI está ensinando seus modelos a fazer o mesmo. Ao assistir a vídeos de humanos realizando tarefas, a IA aprende a intenção e a sequência de ações, traduzindo efetivamente uma demonstração visual em comandos robóticos.

Video thumbnail

Claro que não é tão simples assim. Mostrar a um robô um vídeo de Gordon Ramsay fazendo um Beef Wellington e esperar uma refeição com estrela Michelin é pura fantasia. O principal desafio técnico é o que a indústria chama de “Embodiment Gap” (a lacuna de corporificação). Uma mão humana possui 27 graus de liberdade; uma garra de dois dedos, não. Mapear os movimentos fluidos de um chef humano nas articulações rígidas de um braço robótico multieixo é um problema de tradução monumental.

Aprendizado “Omni-bodied” e o Skild Brain

É aqui que a Skild AI afirma estar o seu “pulo do gato”. A empresa desenvolveu o que chama de um modelo de fundação “omni-bodied” (de corpos variados), batizado de Skild Brain. Esta IA foi projetada para ser independente de hardware, capaz de controlar várias formas robóticas — de humanoides sobre rodas a braços estacionários — sem se especializar excessivamente em nenhuma delas. O modelo é pré-treinado com uma dieta massiva de vídeos humanos e simulações baseadas em física, permitindo que ele construa uma compreensão generalizada de como os objetos devem ser manipulados.

“Aprender por experiência, e não por pré-programação, é a mudança de patamar que ocorreu na robótica”, afirmou a empresa, destacando o uso da infraestrutura de IA e simulação da NVIDIA para adquirir “um milênio de experiência em poucos dias”.

Essa abordagem permite que o robô aprenda uma nova habilidade a partir de um vídeo com menos de uma hora de dados específicos do robô para ajuste fino (fine-tuning). O resultado é um sistema que consegue generalizar entre diferentes tarefas e ambientes, como visto em suas demonstrações de robôs carregando lava-louças, regando plantas e fechando cortinas.

Uma colagem mostrando robôs da Skild AI realizando várias tarefas aprendidas por vídeo, incluindo culinária e assistência doméstica.

Implicações para a Revolução Robótica

Se a abordagem da Skild AI se provar tão escalável e eficaz quanto prometido, as implicações são colossais. Ela altera fundamentalmente a economia do treinamento robótico. A necessidade de vastas e caras fazendas de teleoperação poderia ser substituída por modelos poderosos que aprendem com uma biblioteca pública e crescente de atividade humana. Isso poderia acelerar drasticamente a implantação de robôs em ambientes não estruturados, como residências, restaurantes e canteiros de obras — locais onde a automação tradicionalmente sempre patinou.

A indústria está atenta. Concorrentes no espaço de humanoides e robôs de propósito geral estão todos fazendo suas próprias apostas altas para resolver o problema dos dados, seja via teleoperação, simulação ou vídeo humano.

Por enquanto, a Skild AI entregou uma demonstração convincente e, francamente, com uma aparência deliciosa. Enquanto o resto do mundo está ocupado criando conteúdo para humanos assistirem, a Skild está silenciosamente transformando esse conteúdo em um currículo para nossos futuros assistentes robóticos. A era do chef robô autodidata pode estar mais próxima do que imaginamos.