A Robot Forradalom nyílt forráskódú: Az NVIDIA GR00T N1 megnyitja az általános robotika korszakát
A San Jose-i SAP Center hatalmas csarnokában, fejlesztők és technológiai szakemberek ezreinek villanyos várakozása közepette Jensen Huang, az NVIDIA vezérigazgatója ikonikus bőrdzsekijében átsétált a színpadon, drámaian megállva, mielőtt kijelentette: “Az általános robotika korszaka elérkezett.” Ez a kijelentés, amelyet kedden az NVIDIA GTC 2025 konferenciáján tett, több volt mint túlzás – ez volt a robotika Android-pillanatának leleplezése: az NVIDIA Isaac GR00T N1, a világ első nyílt humanoid robot alapmodellje.
Agy minden testhez: A robotintelligencia demokratizálása
Éles ellentétben a mai címlapokat uraló zárt AI-rendszerekkel, a GR00T N1 alapvetően más megközelítést képvisel a robot-intelligenciában – olyat, amely a nyitottságra, a hozzáférhetőségre és a környezetek és feladatok között általánosítani képes robotok víziójára épül, anélkül, hogy minden forgatókönyvhöz specializált programozásra lenne szükség.
“Az NVIDIA Isaac GR00T N1-gyel és az új adatgenerálási és robottanulási keretrendszerekkel a robotikai fejlesztők világszerte meg fogják nyitni a következő határterületet az AI korszakában,” mondta Huang a zsúfolásig telt arénának két órán túlnyúló keynote beszédében. A kijelentés magába foglalja az NVIDIA ambiciózus stratégiáját: létrehozni az alapvető intelligenciát, amely a humanoid robotok következő generációját fogja meghajtani, majd szabadon elérhetővé tenni azt a fejlesztők számára világszerte.
Ami ezt a bejelentést különösen jelentőssé teszi, az az, ahogyan a robotika legmakacsabb kihívását kezeli – a tanítási adatok skálázhatóságát. Ahogy Jim Fan, az NVIDIA vezető kutatási menedzsere és az Embodied AI vezetője a keynote-ot követő LinkedIn-bejegyzésében magyarázta: “Küldetésünk a Fizikai AI demokratizálása. Az általános robotagy ereje a tenyerében – mindössze 2 milliárd paraméterrel, az N1 a valaha összeállított legváltozatosabb fizikai cselekvési adathalmazból tanul, és súlya felett teljesít.”
A gyors és lassú gondolkodású robot
A GR00T N1 szívében egy kettős rendszerarchitektúra áll, amelyet az emberi megismerés inspirált – amit az NVIDIA “gyors és lassú” gondolkodásnak nevez. A megközelítés a kognitív tudományok elméleteiből merít, amelyek az emberi gondolkodást két rendszerre választják: intuitív, automatikus válaszokra és megfontolt, módszeres érvelésre.
A “System 2”, a lassú gondolkodási komponens egy látás-nyelvi modellt használ a robot környezetének és a kapott utasítások érzékelésére és értelmezésére, majd megfelelő cselekvéseket tervez. A “System 1”, a gyors gondolkodási komponens, ezeket a terveket pontos, folyamatos robotmozgásokká alakítja 120Hz-es végrehajtási sebességgel. Ez az architektúra lehetővé teszi a robotok számára, hogy olyan összetett feladatokat kezeljenek, amelyek mind megfontolást, mind folyékony mozgást igényelnek – tárgyak felemelése, manipulálásuk egy vagy két karral, és többlépcsős sorozatok végrehajtása.
Egy olyan bemutatóban, amely láthatóan fellelkesítette a közönséget, Huang bemutatta az 1X Neo humanoid robotját, amint önállóan végez háztartási rendrakási feladatokat a GR00T N1-re épülő irányelvvel. A robot folyékony mozgása és környezetének látszólagos megértése kiemelte a modell gyakorlati alkalmazási potenciálját.
Az adatkorlát áttörése szintetikus valósággal
Az NVIDIA megközelítésének talán legforradalmibb aspektusa az, ahogyan a robotika alapvető adatproblémáját megoldja. Míg a nyelvi modellek az internet hatalmas szövegkorpuszán képesek tanulni, a robottanulást hagyományosan korlátozta a fizikai világ korlátja – egy emberi demonstrátor naponta csak 24 órányi tanítási adatot tud generálni.
“Az emberi demonstrációs adatokat a nap óráinak száma korlátozza,” magyarázta a narrátor az NVIDIA GR00T N1 bemutató videójában. E korlát leküzdésére az NVIDIA olyan keretrendszereket fejlesztett ki, amelyek exponenciálisan megsokszorozzák a valós világbeli demonstrációkat hatalmas szintetikus adathalmazokká.
Az NVIDIA Isaac GR00T Blueprint első komponenseit használva a vállalat 780 000 szintetikus trajektóriát generált – ami kilenc folyamatos hónapnyi emberi demonstrációs adatnak felel meg – mindössze 11 óra alatt. A valós adatokkal kombinálva ez a szintetikus adathalmaz 40%-kal javította a GR00T N1 teljesítményét a csak valós adatok használatához képest.
A megközelítés három adatforrást használ: valós humanoid távműködtetési adatokat (például az Apple Vision Pro immerzív vezérlőrendszerrel gyűjtve), nagyszabású szimulációs adatokat (amelyeket az NVIDIA nyílt forráskódúvá tesz több mint 300 000 trajektóriával), és amit Fan “neurális trajektóriáknak” nevez – a legfejlettebb videógenerálási modellek használata új szintetikus adatok “hallucinálására” pontos fizikával.
“Jensen szavaival élve, ‘szisztematikusan végtelen adat’!” jegyezte meg Fan a bejegyzésében, utalva Huang jellemzésére erre az adatgenerálási megközelítésre.
A Star Wars pillanat: Blue ellopja a show-t
Egy olyan pillanatban, amely miatt a közönség a telefonjáért nyúlt, Huang bemutatta “Blue”-t, egy karizmatikus robotot, amely úgy néz ki, mintha egy Star Wars filmből lépett volna ki. A kétlábú droid, amely az R2-D2-re emlékeztet, de saját karakteres személyiséggel, Huang körül sétált, kifejezően csipogott, és bólogatott a fejével a közönség nagy örömére.
“Mondja valaki, hogy ez nem volt lenyűgöző,” szólt Huang a tapsvihar közben, miközben Blue bemutatta képességeit. A robot nem csak látványosság volt – az NVIDIA új partnerségét demonstrálta a Google DeepMind-dal és a Disney Research-csel egy új, nyílt forráskódú fizika motor, a Newton megépítésében.
“Szükségünk van egy fizika motorra, amelyet nagyon finom szemcséjű, merev és puha testek számára terveztek, képes a taktilis visszajelzés és a finom motorikus készségek, valamint az aktuátor-vezérlések betanítására,” magyarázta Huang. Az NVIDIA Warp keretrendszerre épülő Newton motor robotok tanítására lesz optimalizálva, és kompatibilis lesz olyan szimulációs keretrendszerekkel, mint a Google DeepMind MuJoCo és az NVIDIA Isaac Lab.
Kyle Laughlin, a Walt Disney Imagineering Research & Development alelnöke kontextust adott a Disney részvételéhez: “A BDX droidok csak a kezdet. Elkötelezettek vagyunk amellett, hogy több karaktert keltsünk életre olyan módokon, ahogyan a világ még nem látta, és ez az együttműködés a Disney Research, az NVIDIA és a Google DeepMind között kulcsfontosságú része ennek a víziónak.”
A 10 billió dolláros lehetőség
A tét ebben a robotikai forradalomban óriási. Huang a robotokat “a következő 10 billió dolláros iparágként” írta le, amely a globális munkaerőhiányt célozza, amely becslések szerint több mint 50 millió emberre rúg.
A humanoid robotokat fejlesztő vállalatok számára a GR00T N1 jelentős előnyt kínál. Ahelyett, hogy a robot intelligenciáját a nulláról építenék fel, a fejlesztők kihasználhatják az NVIDIA alapmodelljét, és testreszabhatják azt specifikus robotokhoz vagy feladatokhoz a képzés utáni finomhangolással.
Bernt Børnich, az 1X Technologies vezérigazgatója, a GR00T N1-et használó korai partnerek egyike, kiemelte ezt az előnyt: “Az NVIDIA GR00T N1 modellje jelentős áttörést jelent a robotok érvelése és készségei számára. Minimális mennyiségű utóképzési adattal képesek voltunk teljes mértékben telepíteni a NEO Gammán – előmozdítva küldetésünket, hogy olyan robotokat hozzunk létre, amelyek nem eszközök, hanem társak, akik jelentőségteljes, mérhetetlen módokon segíthetik az embereket.”
Egyéb vezető humanoid fejlesztők, akik korai hozzáféréssel rendelkeznek, többek között az Agility Robotics, a Boston Dynamics, a Mentee Robotics és a NEURA Robotics.
Kereszt-megtestesítés: A váratlan fordulat
Bár a humanoid robotok a GR00T N1 elsődleges fókusza, Fan egy érdekes képességet fedett fel: a kereszt-megtestesítés támogatását. “Finomhangoljuk, hogy működjön a 110 dolláros HuggingFace LeRobot SO100 robotkaron!” írta. Ez azt mutatja, hogy az alapmodell előnyei túlmutathatnak a drága humanoid platformokon, és elérhetőbbé válhatnak megfizethető hardverekre is.
Fan lelkesedése e fejlemény iránt nyilvánvaló volt a következtetésében: “Nyílt robotagy fut nyílt hardveren. Pont jól hangzik. Oldjuk meg a robotikát, együtt, tokenről tokenre.”
Az út előre
A GR00T N1 modell, a tanítási adatok és a feladat-értékelési forgatókönyvek most már elérhetők a Hugging Face-en és a GitHub-on, az NVIDIA Isaac GR00T Blueprint a szintetikus manipulációs mozgás generálásához pedig interaktív demóként érhető el a build.nvidia.com oldalon.
A fejlesztők számára, akik ezekkel a modellekkel szeretnének dolgozni, az NVIDIA bejelentette a DGX Spark személyi AI szuperszámítógépet is, amely kulcsrakész rendszert biztosít a GR00T N1 képességeinek kiterjesztéséhez új robotokra, feladatokra és környezetekre extenzív egyedi programozás nélkül.
A Newton fizika motor várhatóan később lesz elérhető az idén, tovább bővítve a robotikai fejlesztők eszköztárát.
A fizikai AI demokratizálása
Ami megkülönbözteti az NVIDIA megközelítését, az a nyitottságra és hozzáférhetőségre helyezett hangsúly. A GR00T N1 és a kapcsolódó eszközök széles körű elérhetővé tételével az NVIDIA nem a robot intelligencia egyedüli építőjeként pozicionálja magát, hanem alaprétegként, amelyre a fejlesztők globális közössége innoválhat.
Ahogy a robotika átmegy a specializált ipari alkalmazásoktól az általános képességekre különböző környezetekben, az NVIDIA nyílt megközelítése felgyorsíthatja az innovációt, hasonlóan ahhoz, ahogy a nyílt forráskódú szoftver átalakította a számítástechnikát. A vállalat, amely hírnevét a játékokhoz való grafikus feldolgozással építette fel, most az alapokat rakja le egy olyan jövőhöz, ahol az intelligens robotok olyan mindennapiak lesznek, mint ma az okostelefonok.
A robotikai közösségben a GR00T N1-re adott reakciók lelkesek voltak, bár némi szkepticizmus megmaradt a jelenlegi robot hardverek korlátaival kapcsolatban. Ahogy egy robotikai cég alapítója megjegyezte egy korábbi GR00T frissítésre reagálva: “rendben lenne, ha a robot hardver emberrel összehasonlítható lenne. De nem az. A fájdalmas pont az, hogy a robotok esetlen, ügyetlen közelítések, és közel sem emberi egyenértékűek.”
Mindenesetre az NVIDIA víziója világos: ha a robotok valóban sokoldalúak és hasznosak akarnak lenni az emberi élet számtalan forgatókönyvében, általános intelligenciára van szükségük, amely gyorsan tud alkalmazkodni új környezetekhez és feladatokhoz. A GR00T N1-gyel ez a jövő jelentős lépéssel közelebb került.
“Az általános robotika korszaka itt van,” jelentette ki Huang. Egy olyan terület számára, amely gyakran többet ígért, mint amit teljesített, az NVIDIA szisztematikus megközelítése a robot intelligenciához – alapmodelleket, szintetikus adatgenerálást és nyílt együttműködést kombinálva – talán a leghitelesebb út eddig e kijelentés valósággá tételéhez.