V oboru, kde mají roboti často jemnocit sbíječky, přichází tým vědců s frameworkem, který nese poněkud ironický název T-Rex. Jeho cílem je dát strojům to, co jim dosud zoufale chybělo: reaktivní hmat. Projekt, na kterém spolupracovaly akademické špičky z UC Berkeley, NVIDIA, Stanfordu a dalších institucí, vykazuje v komplexních úkolech o neuvěřitelných 30 % vyšší úspěšnost než ty nejlepší modely spoléhající se pouze na zrak. Tohle není jen drobný evoluční krůček; je to zásadní změna v tom, jak mohou roboti interagovat s fyzickým světem.
Většina moderních robotů poháněných modely VLA (Vision-Language-Action) je ve chvíli, kdy dojde ke kontaktu s předmětem, v podstatě “slepá”. Vidí cíl, naplánují si pohyb, provedou ho – ale už necítí, že jim věc vyklouzává nebo se pod tlakem deformuje. T-Rex tento problém řeší integrací vysokofrekvenční hmatové zpětné vazby přímo do rozhodovací smyčky. Tým v rámci open-source uvolnil masivní dataset obsahující 100 hodin hmatově synchronizovaných manipulací, který zahrnuje přes 7 700 trajektorií s více než 200 různými objekty. Právě tato data byla v oboru dosud kritickým nedostatkovým zbožím.
Tajnou ingrediencí je nová architektura Mixture-of-Transformers (MoT). Tento design chytře rozděluje robotický “mozek”: zatímco jeden “expert” se stará o celkové vizuální plánování, druhý se specializuje na bleskové zpracování neustálého toku hmatových dat pro korekce v reálném čase. Díky tomu robot zvládne i tak jemné úkony, jako je zašroubování žárovky, přenesení vajíčka nebo vytažení jediné karty z balíčku – tedy akce, které jsou pro lidi banální, ale pro stroje bez hmatu představují naprostou noční můru. Celý projekt, včetně datasetu, modelů a tréninkového kódu, je plně k dispozici komunitě, což otevírá dveře k nové éře obratné robotiky.
Proč je to důležité?
Robotická manipulace se roky točila v kruhu sice efektních, ale v jádru neohrabaných interakcí. Tím, že jsme ignorovali hmat, jsme po robotech v podstatě chtěli, aby skládali nábytek z IKEA v tlustých kuchyňských chňapkách. Úspěch projektu T-Rex dokazuje, že hmatové senzory nejsou luxusním doplňkem, ale naprostou nezbytností pro dosažení obratnosti na lidské úrovni. Skutečným “game-changerem” je však fakt, že vědci uvolnili kompletní stack – od 100hodinového datasetu až po architekturu MoT – jako open-source. To výrazně snižuje bariéru pro výzkumníky z celého světa a může odstartovat doslova “kambrickou explozi” inovací. Jsme o velký kus blíž k budoucnosti, kde roboti nebudou předměty jen tupě přesouvat, ale konečně začnou skutečně pracovat rukama.
Technické detaily můžete prozkoumat na webu projektu, přečíst si kompletní studii na arXiv nebo se podívat na kód na GitHubu.

