1X Declares War on 'VLA Wrappers,' Launches World Model Lab

Nella frenetica corsa, ad altissimo dispendio di capitali, per costruire macchine pensanti in grado di muoversi nel mondo fisico, un solco filosofico si sta trasformando in un vero e proprio canyon. Da un lato ci sono i pragmatici, convinti che la strada giusta sia sfruttare la potenza colossale dei Large Language Models (LLM) esistenti. Dall’altro ci sono i puristi, secondo cui la vera intelligenza fisica non può essere “appiccicata” a posteriori: deve essere costruita dalle fondamenta. Questa settimana, l’azienda di robotica umanoide 1X Technologies ha piantato la sua bandiera nel secondo campo, lanciando il 1X World Model Lab con una dichiarazione che ha il fragore di una cannonata.

“Non si arriva all’AGI a colpi di fine-tuning”, ha dichiarato Bernt Bornich, CEO di 1X, in un annuncio che non ammette repliche. “E certamente non si arriva a robot capaci di operare nel mondo fisico rifinendo modelli nati per altro”. È un guanto di sfida lanciato direttamente ai concorrenti che stanno adottando con entusiasmo i modelli Vision-Language-Action (VLA) — sistemi di IA che, in sostanza, “confezionano” un potente VLM come GPT-4 dotandolo di capacità di controllo motorio. 1X sta puntando tutto su un percorso diverso e decisamente più impervio: i modelli del mondo incarnati (embodied world models).

Il Grande Divario: Fine-Tuning contro Primi Principi

Per capire la portata della mossa di 1X, bisogna comprendere le due dottrine contrapposte che si contendono il “cervello” dei robot.

L’approccio Vision-Language-Action (VLA), sostenuto da aziende come Figure AI, è la via della minor resistenza. La logica è seducente: prendi un modello di base da miliardi di dollari che già mastica linguaggio e visione, addestralo (fai fine-tuning) su un dataset di azioni robotiche e, voilà, ecco un robot che esegue ordini. È una strategia che sfrutta l’immenso progresso (e gli investimenti) fatti negli LLM. Il problema, secondo i critici, è che a questi modelli manca una reale comprensione della fisica. Sono sofisticati “cacciatori di pattern”, non motori fisici. Possono sapere, grazie ai dati di addestramento, che non devono far cadere un bicchiere, ma non capiscono intrinsecamente che la gravità lo manderà in frantumi.

Poi c’è l’approccio World Model. Questa è la strada in salita. L’obiettivo è costruire un modello di base che apprenda una simulazione interna e predittiva del mondo. Prima ancora di imparare un compito specifico come “raccogli la mela”, deve interiorizzare concetti come lo spazio, il movimento, la permanenza degli oggetti, la causalità e la fisica. I sostenitori credono che questo sia l’unico modo per ottenere una vera generalizzazione: la capacità di un robot di agire con intelligenza in situazioni inedite, mai incontrate nei dati di addestramento.

La posizione di Bornich è inequivocabile. “La nuova frontiera non sono i ‘wrapper’ VLA più evoluti”, ha affermato. “La frontiera sono i modelli del mondo incarnati”.

La scommessa totale di 1X e un acquisto chiave

Il nuovo 1X World Model Lab è la risposta dell’azienda a questa sfida. La sua missione è costruire da zero il modello di base più generalizzabile mai concepito per gli umanoidi. Per guidare questo sforzo ambizioso, 1X ha strappato Sam Sinha a Luma AI, la stella nascente dell’IA generativa video.

L’assunzione è un colpo da maestro strategico. Luma AI è specializzata nella creazione di modelli video iper-realistici, una tecnologia concettualmente vicina alla costruzione di un modello del mondo che deve prevedere futuri stati fisici. L’intera carriera di Sinha si è svolta alla frontiera della scalabilità dei modelli video generativi multimodali. Come ha sottolineato lui stesso, per troppo tempo la robotica è stata trattata come una “Cenerentola” dell’IA, con i dati dei robot ridotti a un “sottile strato di fine-tuning bullonato sopra un modello preesistente”. Il nuovo laboratorio mira a ribaltare la situazione, trattando i dati incarnati (embodied) come l’ingrediente fondamentale, il “primo principio”.

La strategia di 1X si basa su un circolo virtuoso di raccolta dati, quello che chiamano “volano dei dati” (data flywheel):

  • Partenza: Media su scala web, video umani in prima persona (egocentrici) e dati di simulazione.
  • Integrazione: Dati di destrezza provenienti da robot operati da remoto.
  • Distribuzione: Una flotta di umanoidi NEO per raccogliere dati nel mondo reale in tempo reale.
  • Ripetizione: Il robot raccoglie dati, il modello migliora, il robot diventa più abile.

Un’alleanza di “costruttori di mondi”

1X non è sola in questa convinzione filosofica. Il campo dei “World Models” vanta pesi massimi, anche se non tutti impegnati nella costruzione di robot bipedi.

Il sistema Full Self-Driving (FSD) di Tesla è forse l’applicazione più celebre di questo concetto nel mondo reale. L’FSD si affida a un “World Model” per prevedere le probabili azioni future di ogni auto, ciclista e pedone nelle vicinanze, facendo girare una simulazione interna di futuri plausibili per informare le proprie decisioni di guida. Non sta solo reagendo; sta anticipando.

Yann LeCun, luminare dell’IA oggi alla guida di AMI Labs dopo una storica carriera in Meta, è da anni un acceso sostenitore dei modelli del mondo. Sostiene che gli LLM siano “fondamentalmente incompleti” perché privi di un modello interno di come funziona la realtà. Il suo lavoro sulle Joint Embedding Predictive Architectures (JEPA) punta a costruire modelli che apprendano il “senso comune” osservando e predicendo i video, un pilastro della filosofia dei World Models.

Una strada lastricata di petabyte

Quella di 1X è una mossa ad altissimo rischio, ma dalla ricompensa potenzialmente enorme. Costruire un modello del mondo fondamentale partendo da zero è un’impresa astronomicamente costosa e affamata di dati. Mentre il fronte VLA ottiene un vantaggio enorme salendo sulle spalle di giganti come Google e OpenAI, 1X ha scelto di scavarsi le proprie fondamenta.

Il successo del 1X World Model Lab dipenderà dalla sua capacità di far girare il “volano dei dati” su scala massiccia. Se ci riuscirà, potrebbe creare un fossato tecnologico incolmabile e una generazione di robot dotati di un’intelligenza molto più robusta e versatile rispetto ai loro cugini basati su VLA. Se fallirà, resterà un monito per chiunque decida di ignorare una scorciatoia pragmatica in nome di un ideale elegante ma di una difficoltà titanica.

Le linee di battaglia sono tracciate. Il futuro della robotica sarà un’astuta estensione della rivoluzione degli LLM o richiede un inizio completamente nuovo? L’industria osserva, in attesa di capire se l’audace scommessa di 1X di ricostruire il mondo da zero pagherà i suoi dividendi o se si ritroveranno a dover fare il “fine-tuning” dei propri bilanci.