Robotická revolúcia je open source: NVIDIA GR00T N1 otvára éru všestrannej robotiky
V priestrannom SAP Center v San Jose, uprostred elektrizujúceho očakávania tisícok vývojárov a technológov, prešiel generálny riaditeľ NVIDIA Jensen Huang po pódiu vo svojej ikonickej koženej bunde, dramaticky sa zastavil a vyhlásil: “Éra všestrannej robotiky je tu.” Toto vyhlásenie, prednesené na konferencii NVIDIA GTC 2025 v utorok, nebolo len hyperbola—bolo to odhalenie toho, čo sa môže stať obdobím Androidu pre robotiku: NVIDIA Isaac GR00T N1, prvý otvorený základný model pre humanoidné roboty na svete.
Mozog pre každé telo: Demokratizácia robotickej inteligencie
V ostrom kontraste s proprietárnymi AI systémami, ktoré dnes dominujú titulkom, GR00T N1 predstavuje fundamentálne odlišný prístup k robotickej inteligencii—založený na otvorenosti, prístupnosti a vízii robotov, ktorí dokážu zovšeobecňovať naprieč prostrediami a úlohami bez špecializovaného programovania pre každý scenár.
“S NVIDIA Isaac GR00T N1 a novými rámcami pre generovanie dát a učenie robotov vývojári robotiky po celom svete otvoria novú hranicu v ére umelej inteligencie,” povedal Huang preplnenej aréne vo svojom hlavnom prejave, ktorý trval viac ako dve hodiny. Toto vyhlásenie vystihuje ambicióznu stratégiu NVIDIA: vytvoriť základnú inteligenciu, ktorá bude poháňať novú generáciu humanoidných robotov, a potom ju poskytnúť zadarmo vývojárom po celom svete.
Čo robí toto oznámenie mimoriadne významným je spôsob, akým rieši najtrvalejšiu výzvu v robotike—škálovateľnosť tréningových dát. Ako vysvetlil Jim Fan, senior výskumný manažér NVIDIA a vedúci oddelenia Embodied AI, v príspevku na LinkedIne po hlavnom prejave: “Našou misiou je demokratizovať Fyzickú AI. Sila všeobecného robotického mozgu na dlani vašej ruky—s iba 2 miliardami parametrov sa N1 učí z najrôznorodejšieho súboru fyzických akcií, aký bol kedy zostavený, a prekonáva svoju váhovú kategóriu.”
Robot s rýchlym a pomalým myslením
Jadrom GR00T N1 je duálna systémová architektúra inšpirovaná ľudským myslením—to, čo NVIDIA nazýva “rýchlym a pomalým” myslením. Tento prístup čerpá z teórií kognitívnej vedy, ktoré rozdeľujú ľudské myslenie na dva systémy: intuitívne, automatické reakcie a premyslené, metodické uvažovanie.
“Systém 2”, komponent pomalého myslenia, používa jazykový model videnia na vnímanie a uvažovanie o prostredí robota a inštrukciách, ktoré dostáva, a následne plánuje vhodné akcie. “Systém 1”, komponent rýchleho myslenia, prekladá tieto plány do presných, kontinuálnych pohybov robota s frekvenciou vykonávania 120 Hz. Táto architektúra umožňuje robotom zvládať komplexné úlohy vyžadujúce si uvažovanie aj plynulý pohyb—zdvíhanie predmetov, manipuláciu s nimi jednou alebo oboma rukami a vykonávanie viacstupňových sekvencií.
V demonštrácii, ktorá viditeľne nadchla publikum, Huang ukázal humanoidného robota Neo od spoločnosti 1X, ktorý autonómne vykonával domáce upratovacie úlohy pomocou algoritmu postaveného na GR00T N1. Plynulé pohyby robota a zjavné porozumenie svojmu prostrediu podčiarkli potenciál modelu pre praktické aplikácie.
Prelomenie dátovej bariéry so syntetickou realitou
Azda najrevolučnejším aspektom prístupu NVIDIA je spôsob, akým rieši základný problém robotiky s dátami. Zatiaľ čo jazykové modely sa môžu trénovať na obrovskom textovom korpuse internetu, učenie robotov bolo tradične obmedzené limitáciami fyzického sveta—ľudský demonštrátor môže za deň vygenerovať len 24 hodín tréningových dát.
“Demonštračné dáta od ľudí sú obmedzené počtom hodín za deň,” vysvetlil rozprávač v úvodnom videu NVIDIA GR00T N1. Na prekonanie tohto obmedzenia vyvinula NVIDIA rámce na exponenciálne znásobenie demonštrácií z reálneho sveta do masívnych syntetických datasetov.
Pomocou prvých komponentov NVIDIA Isaac GR00T Blueprint spoločnosť vygenerovala 780 000 syntetických trajektórií—ekvivalent deviatich nepretržitých mesiacov ľudských demonštračných dát—za iba 11 hodín. V kombinácii s reálnymi dátami tento syntetický dataset zlepšil výkon GR00T N1 o 40 % v porovnaní s použitím samotných reálnych dát.
Tento prístup využíva tri zdroje dát: reálne dáta z teleoperácie humanoidných robotov (zhromaždené pomocou systémov ako Apple Vision Pro pre imerzívne ovládanie), rozsiahle simulačné dáta (ktoré NVIDIA uvoľňuje ako open source s viac ako 300 000 trajektóriami) a to, čo Fan nazýva “neurálnymi trajektóriami”—použitie najmodernejších modelov na generovanie videa na “halucináciu” nových syntetických dát s presnou fyzikou.
“Použijúc Jensenove slová, ‘systematicky nekonečné dáta’!” poznamenal Fan vo svojom príspevku, odkazujúc na Huangovu charakteristiku tohto prístupu ku generovaniu dát.
Moment Hviezdnych vojen: Blue kradne pozornosť
V momente, ktorý prinútil publikum siahnuť po mobiloch, Huang predstavil “Blue”, charizmatického robota, ktorý vyzerá, akoby vystúpil z filmu Hviezdne vojny. Dvojnohý droid, pripomínajúci R2-D2, ale s vlastnou osobnosťou, chodil okolo Huanga, expresívne pípal a kýval hlavou na potešenie publika.
“Povedzte mi, že to nebolo úžasné,” povedal Huang za potlesku, keď Blue predviedol svoje schopnosti. Robot nebol len na ukážku—demonštroval nové partnerstvo NVIDIA s Google DeepMind a Disney Research pri budovaní nového fyzikálneho enginu s otvoreným zdrojovým kódom s názvom Newton.
“Potrebujeme fyzikálny engine, ktorý je navrhnutý pre veľmi jemnozrnnú, rigidnú a mäkkú hmotu, navrhnutý pre trénovanie taktilnej spätnej väzby, jemných motorických zručností a ovládania aktuátorov,” vysvetlil Huang. Engine Newton, postavený na rámci NVIDIA Warp, bude optimalizovaný pre učenie robotov a kompatibilný so simulačnými rámcami, ako sú Google DeepMind MuJoCo a NVIDIA Isaac Lab.
Kyle Laughlin, senior viceprezident Walt Disney Imagineering Research & Development, poskytol kontext pre zapojenie Disney: “Droidy BDX sú len začiatok. Sme odhodlaní oživiť viac postáv spôsobmi, aké svet ešte nevidel, a táto spolupráca s Disney Research, NVIDIA a Google DeepMind je kľúčovou súčasťou tejto vízie.”
Príležitosť za 10 biliónov dolárov
Stávky v tejto robotickej revolúcii sú obrovské. Huang opísal robotov ako “ďalšie odvetvie za 10 biliónov dolárov”, ktoré rieši globálny nedostatok pracovných síl odhadovaný na viac ako 50 miliónov ľudí.
Pre spoločnosti vyvíjajúce humanoidných robotov ponúka GR00T N1 značný náskok. Namiesto budovania robotickej inteligencie od nuly môžu vývojári využiť základný model NVIDIA a prispôsobiť ho pre konkrétnych robotov alebo úlohy prostredníctvom dodatočného tréningu.
Bernt Børnich, generálny riaditeľ spoločnosti 1X Technologies, jedného z prvých partnerov využívajúcich GR00T N1, zdôraznil túto výhodu: “Model NVIDIA GR00T N1 poskytuje významný prelom pre uvažovanie a zručnosti robotov. S minimálnym množstvom dodatočných tréningových dát sme ho dokázali plne nasadiť na NEO Gamma—čím ďalej napĺňame našu misiu vytvárať robotov, ktorí nie sú nástrojmi, ale spoločníkmi, ktorí dokážu pomáhať ľuďom zmysluplnými, nemerateľnými spôsobmi.”
Medzi ďalších popredných vývojárov humanoidných robotov s prednostným prístupom patria Agility Robotics, Boston Dynamics, Mentee Robotics a NEURA Robotics.
Cross-Embodiment: Nečakaný zvrat
Zatiaľ čo humanoidní roboti sú primárnym zameraním GR00T N1, Fan odhalil zaujímavú schopnosť: podporu cross-embodiment. “Dolaďujeme ho, aby fungoval na robotickom ramene HuggingFace LeRobot SO100 za 110 dolárov!” napísal. To dokazuje, že výhody základného modelu sa môžu rozšíriť aj mimo drahých humanoidných platforiem na dostupnejší hardvér.
Fanov entuziazmus ohľadom tohto vývoja bol zrejmý v jeho závere: “Otvorený robotický mozog beží na otvorenom hardvéri. Znie to správne. Poďme vyriešiť robotiku, spoločne, jeden token za druhým.”
Cesta vpred
Model GR00T N1, tréningové dáta a scenáre hodnotenia úloh sú teraz dostupné na Hugging Face a GitHube, s NVIDIA Isaac GR00T Blueprint pre generovanie syntetických manipulačných pohybov dostupným ako interaktívne demo na build.nvidia.com.
Pre vývojárov, ktorí chcú pracovať s týmito modelmi, NVIDIA tiež oznámila osobný AI superpočítač DGX Spark, poskytujúci systém na kľúč na rozšírenie schopností GR00T N1 pre nových robotov, úlohy a prostredia bez rozsiahleho vlastného programovania.
Očakáva sa, že fyzikálny engine Newton bude dostupný neskôr v tomto roku, čím sa ďalej rozšíri súbor nástrojov pre vývojárov robotiky.
Demokratizácia fyzickej AI
Čo odlišuje prístup NVIDIA je dôraz na otvorenosť a prístupnosť. Tým, že GR00T N1 a s ním spojené nástroje sprístupňuje, sa NVIDIA stavia nie ako jediný tvorca robotickej inteligencie, ale ako základná vrstva, na ktorej môže inovovať globálna komunita vývojárov.
Keď robotika prechádza od špecializovaných priemyselných aplikácií k všeobecným schopnostiam naprieč rôznymi prostrediami, otvorený prístup NVIDIA by mohol urýchliť inovácie podobným spôsobom, ako open-source softvér transformoval výpočtovú techniku. Spoločnosť, ktorá si vybudovala reputáciu na grafickom spracovaní pre hry, teraz kladie základy pre budúcnosť, kde inteligentní roboti budú rovnako všadeprítomní ako dnes smartfóny.
V robotickej komunite boli reakcie na GR00T N1 nadšené, hoci pretrváva určitá skepsa ohľadom súčasných obmedzení robotického hardvéru. Ako poznamenal jeden zakladateľ robotickej spoločnosti v reakcii na skoršiu aktualizáciu GR00T: “bolo by to v poriadku, keby robotický hardvér bol porovnateľný s ľudským. Čo nie je. Bolestivým bodom je, že roboti sú nemotorné, neohrabané aproximácie a ani zďaleka nie sú ekvivalentom človeka.”
Napriek tomu je vízia NVIDIA jasná: ak sa roboti majú stať skutočne všestrannými a užitočnými v nespočetných scenároch ľudského života, potrebujú všeobecnú inteligenciu, ktorá sa dokáže rýchlo prispôsobiť novým prostrediam a úlohám. S GR00T N1 sa táto budúcnosť práve významne priblížila.
“Éra všestrannej robotiky je tu,” vyhlásil Huang. Pre oblasť, ktorá často sľubovala viac a dodala menej, systematický prístup NVIDIA k robotickej inteligencii—kombinujúci základné modely, generovanie syntetických dát a otvorenú spoluprácu—predstavuje azda najdôveryhodnejšiu cestu k tomu, aby sa toto vyhlásenie stalo skutočnosťou.