Robotska revolucija je odprta koda: NVIDIA-jin GR00T N1 naznanja dobo splošne robotike
V prostrani dvorani SAP Center v San Joseju, sredi električne napetosti tisočev razvijalcev in tehnologov, je izvršni direktor NVIDIA Jensen Huang zakorakal po odru v svoji ikonični usnjeni jakni, dramatično obstal, preden je razglasil: “Doba splošne robotike je tu.” Ta izjava, podana na NVIDIA-jini konferenci GTC 2025 v torek, je bila več kot hiperbola—bila je razkritje tega, kar bi lahko postalo Android trenutek za robotiko: NVIDIA Isaac GR00T N1, prvi odprti temeljni model za humanoidne robote na svetu.
Možgani za vsako telo: Demokratizacija robotske inteligence
V izrazitem nasprotju z lastniškimi sistemi umetne inteligence, ki danes prevladujejo v naslovnicah, GR00T N1 predstavlja temeljno drugačen pristop k robotski inteligenci—pristop, ki temelji na odprtosti, dostopnosti in viziji robotov, ki lahko posplošujejo prek okolij in nalog, brez specializiranega programiranja za vsak scenarij.
“Z NVIDIA Isaac GR00T N1 in novimi ogrodji za generiranje podatkov in učenje robotov bodo razvijalci robotike povsod odprli naslednjo mejo v dobi umetne inteligence,” je Huang povedal napolnjeni areni v svojem uvodnem govoru, ki je trajal več kot dve uri. Ta izjava povzema NVIDIA-jino ambiciozno strategijo: ustvariti temeljno inteligenco, ki bo poganjala naslednjo generacijo humanoidnih robotov, nato pa jo brezplačno ponuditi razvijalcem po vsem svetu.
Kar naredi to naznanilo še posebej pomembno, je način, kako naslavlja najbolj vztrajno težavo v robotiki—skalabilnost podatkov za usposabljanje. Kot je pojasnil Jim Fan, NVIDIA-jin višji raziskovalni vodja in vodja utelešene umetne inteligence, v objavi na LinkedIn po uvodnem govoru: “Naša misija je demokratizirati fizično umetno inteligenco. Moč splošnih robotskih možganov v dlani vaše roke—z zgolj 2 milijardama parametrov se N1 uči iz najbolj raznolikega nabora podatkov o fizičnih akcijah, ki je bil kdaj koli sestavljen, in presega svojo težo.”
Robot s hitrim in počasnim razmišljanjem
V jedru GR00T N1 je dvojna sistemska arhitektura, navdihnjena s človeškim spoznavanjem—kar NVIDIA imenuje “hitro in počasno” razmišljanje. Ta pristop črpa iz teorij kognitivne znanosti, ki človeško razmišljanje ločujejo na dva sistema: intuitivne, samodejne odzive in premišljeno, metodično sklepanje.
“Sistem 2”, komponenta počasnega razmišljanja, uporablja vizualni jezikovni model za zaznavanje in sklepanje o robotovem okolju in navodilih, ki jih prejme, nato pa načrtuje ustrezne ukrepe. “Sistem 1”, komponenta hitrega razmišljanja, te načrte prevaja v natančne, neprekinjene robotske gibe s hitrostjo izvajanja 120 Hz. Ta arhitektura omogoča robotom obvladovanje kompleksnih nalog, ki zahtevajo tako premišljevanje kot tekoče gibanje—dvigovanje predmetov, manipulacijo z eno ali obema rokama in izvajanje večstopenjskih zaporedij.
V demonstraciji, ki je vidno navdušila občinstvo, je Huang pokazal humanoidnega robota Neo podjetja 1X, ki avtonomno opravlja gospodinjske naloge pospravljanja z uporabo politike, zgrajene na GR00T N1. Robotovi tekoči gibi in očitno razumevanje okolja sta poudarila potencial modela za praktične aplikacije.
Preboj podatkovne ovire s sintetično resničnostjo
Morda najbolj revolucionarni vidik NVIDIA-jinega pristopa je način, kako rešuje temeljni podatkovni problem robotike. Medtem ko se jezikovni modeli lahko urijo na ogromnem korpusu besedil z interneta, je robotsko učenje tradicionalno omejeno z omejitvami fizičnega sveta—človeški demonstrator lahko ustvari le 24 ur podatkov za usposabljanje na dan.
“Podatki človeškega demonstriranja so omejeni s številom ur v dnevu,” je pojasnil pripovedovalec v NVIDIA-jinem predstavitvenem videu GR00T N1. Za premagovanje te omejitve je NVIDIA razvila ogrodja za eksponentno množenje demonstracij iz resničnega sveta v ogromne sintetične nabore podatkov.
Z uporabo prvih komponent NVIDIA Isaac GR00T Blueprint je podjetje ustvarilo 780.000 sintetičnih trajektorij—ekvivalent devetim neprekinjenim mesecem podatkov človeških demonstracij—v samo 11 urah. V kombinaciji z resničnimi podatki je ta sintetični nabor podatkov izboljšal zmogljivost GR00T N1 za 40 % v primerjavi z uporabo zgolj resničnih podatkov.
Pristop uporablja tri vire podatkov: prave podatke teleoperacije humanoidov (zbrane z uporabo sistemov, kot je Apple Vision Pro za imerzivni nadzor), obsežne simulacijske podatke (ki jih NVIDIA odprtokodno deli z več kot 300.000 trajektorijami) in tisto, kar Fan imenuje “nevronske trajektorije”—uporaba najsodobnejših modelov za generiranje videov za “haluciniranje” novih sintetičnih podatkov z natančno fiziko.
“Če uporabim Jensenove besede, ‘sistematično neskončni podatki’!” je Fan zapisal v svoji objavi, sklicujoč se na Huangovo karakterizacijo tega pristopa k ustvarjanju podatkov.
Zvezdne vojne trenutek: Blue ukrade predstavo
V trenutku, ki je občinstvo pripravil do tega, da so segli po telefonih, je Huang predstavil “Blue”, karizmatičnega robota, ki izgleda, kot da je stopil iz filma Zvezdne vojne. Dvonogi droid, ki spominja na R2-D2, vendar z lastno izrazito osebnostjo, je hodil okoli Huanga, izrazito piskal in kimajoč z glavo v zadovoljstvo občinstva.
“Povejte mi, da to ni bilo neverjetno,” je rekel Huang ob aplavzu, ko je Blue demonstriral svoje zmogljivosti. Robot ni bil le za razkazovanje—demonstriral je NVIDIA-jino novo partnerstvo z Google DeepMind in Disney Research za izgradnjo novega odprtokodnega fizikalnega pogona, imenovanega Newton.
“Potrebujemo fizikalni pogon, ki je zasnovan za zelo fine, toge in mehke snovi, zasnovan za možnost učenja taktilne povratne informacije ter finih motoričnih spretnosti in krmiljenja aktuatorjev,” je pojasnil Huang. Pogon Newton, zgrajen na osnovi NVIDIA Warp, bo optimiziran za učenje robotov in združljiv s simulacijskimi ogrodji, kot sta Google DeepMind-ov MuJoCo in NVIDIA Isaac Lab.
Kyle Laughlin, višji podpredsednik pri Walt Disney Imagineering Research & Development, je pojasnil kontekst vključenosti Disneyja: “BDX droidi so šele začetek. Zavezani smo temu, da bomo oživili več likov na načine, ki jih svet še ni videl, in to sodelovanje z Disney Research, NVIDIA in Google DeepMind je ključni del te vizije.”
Priložnost vredna 10 bilijonov dolarjev
Stave v tej robotski revoluciji so ogromne. Huang je opisal robote kot “naslednjo industrijo, vredno 10 bilijonov dolarjev”, ki naslavlja globalno pomanjkanje delovne sile, ocenjeno na več kot 50 milijonov ljudi.
Za podjetja, ki razvijajo humanoidne robote, GR00T N1 ponuja znatno prednost. Namesto gradnje robotske inteligence od začetka lahko razvijalci izkoristijo NVIDIA-jin temeljni model in ga prilagodijo specifičnim robotom ali nalogam prek usposabljanja po namestitvi.
Bernt Børnich, izvršni direktor podjetja 1X Technologies, enega od zgodnjih partnerjev, ki uporablja GR00T N1, je poudaril to prednost: “NVIDIA-jin model GR00T N1 predstavlja velik preboj za robotsko sklepanje in spretnosti. Z minimalno količino podatkov za usposabljanje po namestitvi smo ga lahko popolnoma uvedli na NEO Gamma—kar je nadaljevanje našega poslanstva ustvarjanja robotov, ki niso orodja, temveč spremljevalci, ki lahko ljudem pomagajo na smiselne, neizmerljive načine.”
Drugi vodilni razvijalci humanoidov z zgodnjim dostopom vključujejo Agility Robotics, Boston Dynamics, Mentee Robotics in NEURA Robotics.
Medtelesna prenosljivost: Nepričakovani preobrat
Čeprav so humanoidni roboti glavni fokus GR00T N1, je Fan razkril zanimivo zmožnost: podporo za medtelesno prenosljivost. “Prilagodili smo ga za delovanje na 110-dolarskem robotskem kraku HuggingFace LeRobot SO100!” je zapisal. To dokazuje, da se lahko koristi temeljnega modela razširijo onkraj dragih humanoidnih platform na bolj dostopno strojno opremo.
Fanova navdušenost nad tem razvojem je bila očitna v njegovem zaključku: “Odprti robotski možgani delujejo na odprti strojni opremi. Sliši se prav. Rešimo robotiko skupaj, en žeton naenkrat.”
Pot naprej
Model GR00T N1, podatki za usposabljanje in scenariji za ocenjevanje nalog so zdaj na voljo na Hugging Face in GitHub, NVIDIA Isaac GR00T Blueprint za sintetično generiranje manipulacijskih gibov pa je na voljo kot interaktivni demo na build.nvidia.com.
Za razvijalce, ki želijo delati s temi modeli, je NVIDIA napovedala tudi osebni superračunalnik za umetno inteligenco DGX Spark, ki ponuja sistem na ključ za razširitev zmogljivosti GR00T N1 za nove robote, naloge in okolja brez obsežnega prilagojenega programiranja.
Pričakuje se, da bo fizikalni pogon Newton na voljo kasneje letos, kar bo dodatno razširilo nabor orodij za razvijalce robotike.
Demokratizacija fizične umetne inteligence
Kar razlikuje NVIDIA-jin pristop, je poudarek na odprtosti in dostopnosti. Z širokim omogočanjem dostopa do GR00T N1 in povezanih orodij se NVIDIA pozicionira ne kot edini graditelj robotske inteligence, temveč kot temeljni sloj, na katerem lahko globalna skupnost razvijalcev inovira.
Medtem ko robotika prehaja iz specializiranih industrijskih aplikacij v splošne zmogljivosti prek različnih okolij, bi NVIDIA-jin odprti pristop lahko pospešil inovacije na podoben način, kot je odprtokodna programska oprema preobrazila računalništvo. Podjetje, ki si je ustvarilo ugled s procesiranjem grafike za igre, zdaj postavlja temelje za prihodnost, kjer bodo inteligentni roboti tako vseprisotni kot danes pametni telefoni.
V robotski skupnosti so bili odzivi na GR00T N1 navdušeni, čeprav obstaja nekaj skepticizma glede trenutnih omejitev robotske strojne opreme. Kot je opozoril ustanovitelj enega od robotskih podjetij v odzivu na prejšnjo posodobitev GR00T: “bilo bi v redu, če bi bila robotska strojna oprema primerljiva s človekom. Kar pa ni. Težava je, da so roboti nerodni, neokretni približki in daleč od človeške ekvivalence.”
Kljub temu je NVIDIA-jina vizija jasna: če naj roboti postanejo resnično vsestranski in uporabni v neštetih scenarijih človeškega življenja, potrebujejo splošno inteligenco, ki se lahko hitro prilagodi novim okoljem in nalogam. Z GR00T N1 je ta prihodnost postala znatno bližja.
“Doba splošne robotike je tu,” je razglasil Huang. Za področje, ki je pogosto preveč obljubljalo in premalo uresničilo, NVIDIA-jin sistematični pristop k robotski inteligenci—ki združuje temeljne modele, generiranje sintetičnih podatkov in odprto sodelovanje—morda predstavlja najbolj verodostojno pot do uresničitve te izjave.