A Carnegie Mellon Egyetem és az NVIDIA kutatói láthatóan úgy döntöttek, hogy a robotoknak, akárcsak a gyakornokoknak, a saját baklövéseikből kellene tanulniuk. Előálltak egy új keretrendszerrel, a PLD-vel (Probe, Learn, Distill – azaz Feltérképez, Tanul, Lepárol), amely lehetővé teszi a látás-nyelv-cselekvés (VLA) modelleknek, hogy autonóm módon fejlődjenek a nagy pontosságú feladatokban. Ez eltávolodik a robotok tanításának hagyományos, fáradságos módszerétől, amelyben emberi demonstrációkat utánoznak – ami valljuk be, körülbelül annyira skálázható, mint kézzel mikrocchipeket faragni, azaz a nullához közelítve.
A PLD módszer egy háromlépcsős folyamat, amelyet arra terveztek, hogy a kudarcot ne csupán elfogadhatóvá, de egyenesen fő funkcióvá emelje. Először a robot feltérképezi saját korlátait azáltal, hogy megpróbál egy feladatot a meglévő tudásával. Amikor elkerülhetetlenül bakizik – mondjuk leönti az italt, amit fel kellett volna szolgálnia –, egy könnyűsúlyú „mentőpolitika”, amelyet maradék megerősítéses tanulással képeztek, azonnal beavatkozik, hogy korrigálja a cselekvést. Végül a rendszer lepárolja ezt a sikeres helyreállítást, finomhangolva a fő modellt az új adatokkal. Lényegében a robot minden egyes kudarc után egy kicsit okosabb lesz, nincs szükség kézenfogásra, se dédelgetésre. A rendszer már 99%-os sikerességi arányt mutatott a LIBERO benchmarkon és 100%-ot bizonyos valós manipulációs feladatokban.
Miért fontos ez?
Ez egy jelentős lépés a valóban adaptálható robotok megalkotása felé. Ahelyett, hogy tökéletes mozgások könyvtárával programoznák minden elképzelhető szituációra, a PLD-vel felszerelt robot saját tréningadatokat generálhat újszerű, tökéletlen tapasztalatokból. Ez az önfejlesztő ciklus drasztikusan csökkentheti a fejlesztési időt és költséget, ezáltal a robotok életképesebbé válnak komplex, strukturálatlan környezetekben, mint például az Ön katasztrofálisan rendetlen konyhája. Ez egy váltás a „nézéssel tanulásról” a „cselekvés általi tanulásra”, és ami még fontosabb, a „majdnem elszúrásból való tanulásra”.






