Navigáció

Robotická revoluce je open source: NVIDIA GR00T N1 zahajuje éru univerzální robotiky

Robotická revoluce je open source: NVIDIA GR00T N1 zahajuje éru všestranné robotiky

V prostorné SAP Center v San José, uprostřed elektrizujícího očekávání tisíců vývojářů a technologů, se CEO společnosti NVIDIA Jensen Huang prošel po pódiu ve své ikonické kožené bundě, dramaticky se odmlčel a prohlásil: “Éra všestranné robotiky je tady.” Toto prohlášení, které zaznělo na konferenci NVIDIA GTC 2025 v úterý, bylo více než jen hyperbola – bylo odhalením toho, co by se mohlo stát “Android momentem” pro robotiku: NVIDIA Isaac GR00T N1, první otevřený základní model pro humanoidní roboty na světě.

Mozek pro každé tělo: Demokratizace robotické inteligence

V ostrém kontrastu s proprietárními AI systémy, které dnes dominují titulkům, představuje GR00T N1 zásadně odlišný přístup k robotické inteligenci – přístup založený na otevřenosti, dostupnosti a vizi robotů, kteří se dokážou pohybovat v různých prostředích a plnit různé úkoly bez specializovaného programování pro každý scénář.

“S NVIDIA Isaac GR00T N1 a novými rámci pro generování dat a učení robotů otevřou vývojáři robotiky po celém světě novou hranici v éře umělé inteligence,” řekl Huang zaplněné aréně ve své přednášce, která trvala více než dvě hodiny. Toto prohlášení vystihuje ambiciózní strategii NVIDIE: vytvořit základní inteligenci, která bude pohánět novou generaci humanoidních robotů, a poté ji volně zpřístupnit vývojářům po celém světě.

Co činí toto oznámení obzvláště významným, je způsob, jakým řeší nejtrvalejší výzvu v robotice – škálovatelnost trénovacích dat. Jak vysvětlil Jim Fan, senior research manager a vedoucí týmu Embodied AI v NVIDIA, ve svém příspěvku na LinkedInu po keynote: “Naším posláním je demokratizovat fyzickou umělou inteligenci. Síla obecného robotického mozku, na dosah ruky – s pouhými 2 miliardami parametrů se N1 učí z nejrozmanitějšího datasetu fyzických akcí, jaký byl kdy sestaven, a předčí očekávání.”

Robot s rychlým a pomalým myšlením

Jádrem GR00T N1 je duální architektura inspirovaná lidským poznáváním – to, co NVIDIA nazývá “rychlým a pomalým” myšlením. Tento přístup čerpá z teorií kognitivní vědy, které rozdělují lidské myšlení do dvou systémů: intuitivní, automatické reakce a promyšlené, metodické uvažování.

“Systém 2”, pomalá složka myšlení, používá jazykový model pro vidění k vnímání a uvažování o okolí robota a o instrukcích, které dostává, a následně plánuje vhodné akce. “Systém 1”, rychlá složka myšlení, převádí tyto plány na přesné, kontinuální pohyby robota s frekvencí 120 Hz. Tato architektura umožňuje robotům zvládat složité úkoly vyžadující jak rozvahu, tak plynulý pohyb – zvedání předmětů, manipulaci s nimi jednou nebo oběma pažemi a provádění vícekrokových sekvencí.

V demonstraci, která viditelně nadchla publikum, ukázal Huang humanoidního robota Neo od společnosti 1X, který autonomně prováděl domácí úklid pomocí řízení postaveného na GR00T N1. Plynulé pohyby robota a zjevné pochopení jeho prostředí zdůraznily potenciál modelu pro praktické aplikace.

Prolomení datové bariéry pomocí syntetické reality

Možná nejrevolučnějším aspektem přístupu NVIDIA je způsob, jakým řeší základní datový problém robotiky. Zatímco jazykové modely se mohou trénovat na rozsáhlém textovém korpusu internetu, učení robotů bylo tradičně omezeno omezeními fyzického světa – lidský demonstrátor může denně vygenerovat pouze 24 hodin trénovacích dat.

“Data z lidských demonstrací jsou omezena počtem hodin v jednom dni,” vysvětlil vypravěč v úvodním videu NVIDIA GR00T N1. K překonání tohoto omezení vyvinula NVIDIA rámce pro exponenciální znásobení demonstrací z reálného světa do masivních syntetických datových sad.

Pomocí prvních komponent NVIDIA Isaac GR00T Blueprint vytvořila společnost 780 000 syntetických trajektorií – což odpovídá devíti nepřetržitým měsícům lidských demonstrací – za pouhých 11 hodin. V kombinaci s reálnými daty tento syntetický dataset zlepšil výkon GR00T N1 o 40 % ve srovnání s použitím pouze reálných dat.

Tento přístup využívá tři zdroje dat: reálná data z teleoperace humanoidních robotů (shromážděná pomocí systémů jako Apple Vision Pro pro imerzivní ovládání), rozsáhlá simulační data (která NVIDIA zveřejňuje jako open source s více než 300 000 trajektoriemi) a to, co Fan nazývá “neurální trajektorie” – využití nejmodernějších modelů pro generování videa k “halucinaci” nových syntetických dat s přesnou fyzikou.

“Slovy Jensena: ‘systematicky nekonečná data’!” poznamenal Fan ve svém příspěvku, odkazujíc na Huangovu charakteristiku tohoto přístupu ke generování dat.

Moment ze Star Wars: Blue krade pozornost

V okamžiku, který přiměl publikum sáhnout po telefonech, představil Huang “Blue”, charismatického robota, který vypadá, jako by vystoupil z filmu Star Wars. Dvounohý droid, připomínající R2-D2, ale s vlastní výraznou osobností, chodil kolem Huanga, expresivně pípnal a kýval hlavou k potěšení publika.

“Řekněte mi, že to nebylo úžasné,” řekl Huang za potlesku, když Blue předváděl své schopnosti. Robot nebyl jen na ukázku – demonstroval nové partnerství NVIDIA s Google DeepMind a Disney Research při budování nového open-source fyzikálního enginu nazvaného Newton.

“Potřebujeme fyzikální engine, který je navržen pro velmi jemnou granulaci, pevná a měkká tělesa, navržený pro možnost trénování hmatové zpětné vazby, jemných motorických dovedností a řízení aktuátorů,” vysvětlil Huang. Engine Newton, postavený na rámci NVIDIA Warp, bude optimalizován pro učení robotů a kompatibilní se simulačními rámci, jako jsou Google DeepMind’s MuJoCo a NVIDIA Isaac Lab.

Kyle Laughlin, senior viceprezident Walt Disney Imagineering Research & Development, poskytl kontext zapojení Disney: “Droidi BDX jsou teprve začátek. Jsme odhodláni oživit více postav způsoby, které svět ještě neviděl, a tato spolupráce s Disney Research, NVIDIA a Google DeepMind je klíčovou součástí této vize.”

Příležitost za 10 bilionů dolarů

Sázky v této robotické revoluci jsou obrovské. Huang popsal roboty jako “další průmysl za 10 bilionů dolarů”, který řeší globální nedostatek pracovních sil odhadovaný na více než 50 milionů lidí.

Pro společnosti vyvíjející humanoidní roboty nabízí GR00T N1 podstatný náskok. Místo vytváření robotické inteligence od nuly mohou vývojáři využít základní model NVIDIA a přizpůsobit ho pro konkrétní roboty nebo úkoly prostřednictvím dodatečného tréninku.

Bernt Børnich, CEO společnosti 1X Technologies, jednoho z prvních partnerů využívajících GR00T N1, zdůraznil tuto výhodu: “Model GR00T N1 od NVIDIA představuje významný průlom pro uvažování a dovednosti robotů. S minimálním množstvím dat pro dodatečný trénink jsme ho byli schopni plně nasadit na NEO Gamma – což posouvá naši misi vytvářet roboty, kteří nejsou nástroji, ale společníky, kteří mohou pomáhat lidem smysluplnými, neměřitelnými způsoby.”

Mezi další přední vývojáře humanoidních robotů s včasným přístupem patří Agility Robotics, Boston Dynamics, Mentee Robotics a NEURA Robotics.

Cross-Embodiment: Nečekaný zvrat

Zatímco humanoidní roboti jsou hlavním zaměřením GR00T N1, Fan odhalil intrigující schopnost: podporu cross-embodiment. “Dolaďujeme ho, aby fungoval na robotickém rameni HuggingFace LeRobot SO100 za 110 dolarů!” napsal. To dokazuje, že výhody základního modelu se mohou rozšířit i na dostupnější hardware mimo drahé humanoidní platformy.

Fanovo nadšení z tohoto vývoje bylo zřejmé v jeho závěru: “Otevřený robotický mozek běží na otevřeném hardwaru. Zní to přesně tak, jak má. Pojďme řešit robotiku společně, jeden token po druhém.”

Cesta vpřed

Model GR00T N1, trénovací data a scénáře pro hodnocení úkolů jsou nyní k dispozici na Hugging Face a GitHubu, s interaktivní demo verzí NVIDIA Isaac GR00T Blueprint pro syntetickou generaci manipulačních pohybů dostupnou na build.nvidia.com.

Pro vývojáře, kteří chtějí pracovat s těmito modely, oznámila NVIDIA také osobní AI superpočítač DGX Spark, který poskytuje kompletní systém pro rozšíření schopností GR00T N1 pro nové roboty, úkoly a prostředí bez rozsáhlého vlastního programování.

Očekává se, že fyzikální engine Newton bude k dispozici později v tomto roce, což dále rozšíří sadu nástrojů pro vývojáře robotiky.

Demokratizace fyzické umělé inteligence

Co odlišuje přístup NVIDIA, je její důraz na otevřenost a dostupnost. Tím, že NVIDIA zpřístupnila GR00T N1 a s ním spojené nástroje široké veřejnosti, se staví nikoli jako jediný tvůrce robotické inteligence, ale jako základní vrstva, na které může globální komunita vývojářů inovovat.

Když robotika přechází od specializovaných průmyslových aplikací k všestranným schopnostem napříč různými prostředími, otevřený přístup NVIDIA by mohl urychlit inovace způsobem podobným tomu, jak open-source software transformoval výpočetní techniku. Společnost, která si vybudovala reputaci na grafickém zpracování pro herní průmysl, nyní pokládá základy budoucnosti, kde inteligentní roboti budou stejně všudypřítomní jako dnešní chytré telefony.

V robotické komunitě byly reakce na GR00T N1 nadšené, ačkoli přetrvává určitá skepse ohledně současných omezení robotického hardwaru. Jak poznamenal jeden zakladatel robotické společnosti v reakci na dřívější aktualizaci GR00T: “bylo by to v pořádku, kdyby byl robotický hardware srovnatelný s lidským. Což není. Problémem je, že roboti jsou nemotorné, neohrabané aproximace a zdaleka nedosahují lidských ekvivalentů.”

Přesto je vize NVIDIA jasná: pokud se roboti mají stát skutečně všestrannými a užitečnými v nespočetných scénářích lidského života, potřebují všestrannou inteligenci, která se dokáže rychle přizpůsobit novým prostředím a úkolům. S GR00T N1 se tato budoucnost právě výrazně přiblížila.

“Éra všestranné robotiky je tady,” prohlásil Huang. Pro obor, který často přeháněl sliby a nenaplňoval očekávání, představuje systematický přístup NVIDIA k robotické inteligenci – kombinující základní modely, generování syntetických dat a otevřenou spolupráci – možná nejdůvěryhodnější cestu k tomu, aby se toto prohlášení stalo skutečností.