NVIDIA ENPIRE: AI agenti řídí robotickou laboratoř bez lidí

Celé roky byla vize umělé inteligence, která se sama zdokonaluje, víceméně uvězněna v digitálních pískovištích simulací. Je jedna věc nechat AI ovládnout videohru, ale úplně jiná káva je pustit ji k drahému hardwaru v neúprosně chaotickém reálném světě. Vědci z NVIDIA ve spolupráci s Carnegie Mellon University a UC Berkeley se teď ale rozhodli AI agentům odevzdat klíče od laboratoře. Jejich nový framework ENPIRE v podstatě vytváří autonomní robotický výzkumný program – a první výsledky jsou pro lidské inženýry stejně fascinující jako znepokojivé.

ENPIRE umožňuje „agentní“ AI – tedy kódovacím agentům, kteří dokážou samostatně uvažovat a jednat – převzít plnou kontrolu nad procesem fyzického učení. Systém dosáhl neuvěřitelné 99% úspěšnosti v úkolech vyžadujících extrémní preciznost, které by běžně vyžadovaly týdny lidského ladění metodou pokus-omyl. Mluvíme tu o činnostech jako zasouvání drobných pinů do krabičky, usazování GPU do slotu nebo dokonce stříhání stahovacích pásek pomocí nástroje. Nejde přitom jen o drobné ladění parametrů; tito AI agenti si sami přepisují vlastní algoritmy na základě reálných výsledků. V podstatě tak celý cyklus výzkumu a vývoje outsourcovali sami na sebe.

Automatizovaná zpětná vazba bez lidí

Hlavním úzkým hrdlem robotiky byl vždy zdlouhavý proces lidského dozoru a ručního psaní algoritmů. ENPIRE tento problém řeší čelním útokem: vytváří uzavřenou, opakovatelnou smyčku zpětné vazby, kterou AI kočíruje zcela sama. Framework se dělí na čtyři chytré moduly, které mu daly jméno:

  • Environment (EN): Tento modul automatizuje dvě nejotravnější části testování v reálu: přípravu scény pro další pokus a ověření výsledku. Než se AI začne učit hlavní úkol, jiný agent nejdříve přijde na to, jak automaticky vyresetovat pracovní plochu. Klíčovým poznatkem zde je, že resetování scény je často jednodušší robotický oříšek než úkol samotný.
  • Policy Improvement (PI): Tady nastupují kódovací agenti. Navrhují a nasazují širokou škálu strategií pro zlepšení – od psaní jednoduchých heuristik až po komplexní metody, jako je klonování chování nebo posilované učení (RL).
  • Rollout (R): Moment pravdy, kdy se železo potkává s realitou. Modul spustí navrženou strategii na jednom nebo více fyzických robotech a sbírá drahocenná data z terénu.
  • Evolution (E): AI agenti analyzují logy z pokusů, pročítají vědeckou literaturu pro nové nápady a následně ladí kód pro další iteraci. Je to nekompromisní, automatizovaná verze vědecké metody, která běží 24 hodin denně, 7 dní v týdnu.

Tato struktura mění chaotický proces učení robotů v čistý, kontrolovatelný optimalizační problém, který po úvodním nastavení nevyžaduje téměř žádný lidský zásah.

Diagram zobrazující architekturu frameworku ENPIRE a příklady úkolů v reálném světě.

Ze stážisty vedoucím výzkumu

To, co dělá ENPIRE skutečným skokem vpřed, je míra autonomie. Výzkumník z NVIDIA Jim Fan tomu říká „skutečný autovýzkum“ (real autoresearch). Agenti jen netočí knoflíky u předem napsaného algoritmu. Oni aktivně prozkoumávají různá programovací paradigmata, přepisují si vlastní tréninkové cíle a dokonce modifikují datové loadery.

V jednom případě se agent při učení zasouvání pinu sám rozhodl, že ladění parametrů posilovaného učení není ta nejlepší cesta. Místo toho si od nuly napsal vlastní bezpečnostní kontroler založený na kontaktní síle, což se ukázalo jako mnohem efektivnější řešení. Je to digitální ekvivalent stážisty, který se sám povýší na vedoucího vědce a vyřeší problém, na kterém se zaseklo celé seniorské oddělení.

Časová osa projektu (tzv. hillclimb timeline) krásně vizualizuje tento proces: ukazuje, jak jednotlivé nápady navržené agenty – jako přidání regularizace nebo kompenzace kontroleru – postupně tlačí úspěšnost k oné téměř dokonalé hranici 99 % během pouhých několika hodin.

Škálování robotické pracovní síly

ENPIRE je od základu navržen pro škálování. Framework dokáže řídit celou flotilu robotů pracujících paralelně, což drasticky urychluje proces učení. Aby vědci dokázali efektivitu tohoto systému změřit, zavedli dvě nové metriky: Mean Robot Utilization (MRU) a Mean Token Utilization (MTU). Ty sledují, jak efektivně systém udržuje roboty v zápřahu a jak hospodárně využívá výpočetní rozpočet AI modelu.

Příslib tohoto výzkumu je dalekosáhlý. Automatizací fyzické zpětné vazby by se mohlo těžiště robotiky přesunout od piplavého navrhování algoritmů k navrhování uzavřených, samostatně se resetujících prostředí, která pak AI agenti ovládnou sami.

NVIDIA oznámila plány uvolnit celý framework ENPIRE jako open-source, což by mohlo demokratizovat přístup k pokročilému robotickému výzkumu. Brzy by si tak každý, kdo má robotické rameno a slušnou grafickou kartu, mohl v obýváku postavit vlastní laboratoř, která se sama zdokonaluje. Éra, kdy se AI učí v reálném světě, už není jen simulací – běží to naživo, stříhá to pásky a píše si to vlastní kód pro danou práci.

Do technických detailů se můžete ponořit v kompletní vědecké práci. Hypertextový odkaz: Přečtěte si studii na stránkách NVIDIA Research.