W dziedzinie, w której roboty zazwyczaj wykazują się delikatnością młota pneumatycznego, zespół badaczy zaprezentował framework o przewrotnej nazwie T-Rex. Jego cel? Wyposażyć maszyny w kluczowy, a dotychczas niemal nieobecny zmysł: reaktywny dotyk. Projekt, będący owocem współpracy akademickich potęg z UC Berkeley, NVIDIA oraz Stanforda, przyniósł oszałamiający, 30-procentowy wzrost skuteczności w złożonych zadaniach manipulacyjnych w porównaniu do najsilniejszych modeli opartych wyłącznie na wzroku. To nie jest tylko kolejna drobna poprawka – to fundamentalna zmiana w sposobie, w jaki roboty wchodzą w interakcję ze światem fizycznym.
Większość współczesnych robotów, napędzanych modelami Vision-Language-Action (VLA), w momencie kontaktu z przedmiotem działa niemal “na oślep”. Maszyna widzi, planuje i wykonuje ruch, ale nie czuje, że obiekt wysuwa się z chwytaka lub ulega deformacji. T-Rex rozwiązuje ten problem, integrując wysokoczęstotliwościowe sprzężenie dotykowe bezpośrednio z pętlą decyzyjną. W ramach otwartego dostępu (open-source), zespół udostępnił gigantyczny, 100-godzinny zbiór danych z manipulacji zsynchronizowanej z dotykiem. Zawiera on ponad 7700 trajektorii z udziałem ponad 200 różnych obiektów, dostarczając paliwa, którego tej dziedzinie dotychczas brakowało.
“Sekretnym składnikiem” sukcesu jest nowatorska architektura Mixture-of-Transformers (MoT). Konstrukcja ta sprytnie rozdziela “mózg” robota: nisko-częstotliwościowy moduł ekspercki odpowiada za ogólne planowanie wizualne, podczas gdy dedykowany moduł wysokiej częstotliwości przetwarza nieustanny strumień danych dotykowych, pozwalając na korekty w czasie rzeczywistym. Dzięki temu robot może wykonywać zadania wymagające nie lada precyzji: wkręcanie żarówki, przenoszenie surowego jajka czy wyciąganie pojedynczej karty z talii – czynności banalne dla człowieka, ale będące koszmarem dla “bezdusznej” maszyny. Cały projekt, w tym zbiór danych, modele i kod treningowy, został udostępniony społeczności, co jest otwartym zaproszeniem do budowania nowej ery zręcznej robotyki.
Dlaczego to ma znaczenie?
Przez lata manipulacja robotyczna kręciła się w kółko – interakcje maszyn wyglądały efektownie na filmach, ale w rzeczywistości były toporne. Ignorując dotyk, kazaliśmy robotom składać meble z IKEI w grubych rękawicach kuchennych. Sukces T-Rexa dowodzi, że czucie nie jest luksusem, lecz koniecznością, jeśli chcemy osiągnąć sprawność na ludzkim poziomie. Fakt, że cały ten stos technologiczny – od 100-godzinnego zbioru danych po architekturę MoT – trafił do open-source, to prawdziwy “game-changer”. Obniża to barierę wejścia dla badaczy z całego świata i może wywołać prawdziwą kambryjską eksplozję innowacji. Jesteśmy o krok bliżej przyszłości, w której roboty nie będą tylko przekładać pudełek z miejsca na miejsce, ale w końcu zaczną naprawdę pracować swoimi rękami.
Szczegóły techniczne można zgłębić na stronie projektu, czytając pełną publikację na arXiv lub analizując kod w serwisie GitHub.

