Роботична революція стає відкритою: NVIDIA GR00T N1 відкриває еру універсальної робототехніки
У просторому SAP Center у Сан-Хосе, серед електризуючого очікування тисяч розробників і технологів, генеральний директор NVIDIA Дженсен Хуанг впевнено крокував сценою у своїй культовій шкіряній куртці, драматично зупинившись перед тим, як проголосити: “Ера універсальної робототехніки настала”. Ця заява, зроблена на конференції NVIDIA GTC 2025 у вівторок, була не просто гіперболою — це було представлення того, що може стати “Android-моментом” для робототехніки: NVIDIA Isaac GR00T N1, першої у світі відкритої базової моделі для гуманоїдних роботів.
Мозок для кожного тіла: Демократизація робототехнічного інтелекту
Різко контрастуючи з пропрієтарними системами ШІ, які домінують у сьогоднішніх заголовках, GR00T N1 представляє фундаментально інший підхід до робототехнічного інтелекту — підхід, побудований на відкритості, доступності та баченні роботів, які можуть діяти в різних середовищах і виконувати різні завдання без спеціалізованого програмування для кожного сценарію.
“З NVIDIA Isaac GR00T N1 та новими інструментами для генерації даних і навчання роботів, розробники робототехніки в усьому світі відкриють новий рубіж в еру штучного інтелекту”, — сказав Хуанг переповненій арені під час своєї презентації, яка тривала понад дві години. Ця заява втілює амбітну стратегію NVIDIA: створити базовий інтелект, який живитиме наступне покоління гуманоїдних роботів, а потім зробити його вільно доступним для розробників у всьому світі.
Особливо значущим робить це оголошення те, як воно вирішує найбільш стійку проблему робототехніки — масштабованість навчальних даних. Як пояснив Джим Фан, старший керівник досліджень NVIDIA та керівник Embodied AI, у публікації LinkedIn після презентації: “Ми прагнемо демократизувати фізичний ШІ. Потужність універсального мозку робота на долоні вашої руки — маючи лише 2 мільярди параметрів, N1 навчається на найрізноманітнішому наборі даних фізичних дій, коли-небудь зібраному, і перевершує свою вагову категорію”.
Швидкодумаючий і повільнодумаючий робот
В основі GR00T N1 лежить двосистемна архітектура, натхненна людським пізнанням — те, що NVIDIA називає “швидким і повільним” мисленням. Цей підхід запозичує з теорій когнітивної науки, які розділяють людське мислення на дві системи: інтуїтивні, автоматичні реакції та обдумані, методичні міркування.
“Система 2”, компонент повільного мислення, використовує візуальну мовну модель для сприйняття та аналізу навколишнього середовища робота й отриманих ним інструкцій, а потім планує відповідні дії. “Система 1”, компонент швидкого мислення, перетворює ці плани у точні, безперервні рухи робота з частотою виконання 120 Гц. Ця архітектура дозволяє роботам виконувати складні завдання, що вимагають як роздумів, так і плавного руху — підбирати об’єкти, маніпулювати ними однією чи обома руками та виконувати багатокрокові послідовності.
У демонстрації, яка явно схвилювала аудиторію, Хуанг показав, як гуманоїдний робот Neo від компанії 1X автономно виконує завдання з прибирання будинку, використовуючи політику, побудовану на GR00T N1. Плавні рухи робота та явне розуміння навколишнього середовища підкреслили потенціал моделі для практичного застосування.
Подолання бар’єру даних за допомогою синтетичної реальності
Мабуть, найреволюційнішим аспектом підходу NVIDIA є те, як він вирішує фундаментальну проблему даних у робототехніці. У той час як мовні моделі можуть навчатися на величезному текстовому корпусі інтернету, навчання роботів традиційно обмежувалося фізичними обмеженнями світу — людина-демонстратор може генерувати лише 24 години навчальних даних на день.
“Дані людських демонстрацій обмежені кількістю годин у добі”, — пояснив диктор у вступному відео NVIDIA GR00T N1. Щоб подолати це обмеження, NVIDIA розробила інструменти для експоненціального збільшення реальних демонстрацій у масивні синтетичні набори даних.
Використовуючи перші компоненти NVIDIA Isaac GR00T Blueprint, компанія згенерувала 780 000 синтетичних траєкторій — еквівалент дев’яти безперервних місяців людських демонстрацій — всього за 11 годин. У поєднанні з реальними даними цей синтетичний набір даних покращив продуктивність GR00T N1 на 40% порівняно з використанням лише реальних даних.
Підхід використовує три джерела даних: реальні дані телеоперування гуманоїдів (зібрані за допомогою таких систем, як Apple Vision Pro для імерсивного керування), масштабні симуляційні дані (які NVIDIA відкриває з понад 300 000 траєкторій) і те, що Фан називає “нейронними траєкторіями” — використання найсучасніших моделей генерації відео для “галюцинації” нових синтетичних даних з точною фізикою.
“Використовуючи слова Дженсена, ‘систематично нескінченні дані’!” — зазначив Фан у своєму дописі, посилаючись на характеристику Хуангом цього підходу до генерації даних.
Момент “Зоряних війн”: Blue викрадає шоу
У момент, який змусив аудиторію потягнутися за телефонами, Хуанг представив “Blue”, харизматичного робота, який виглядає так, ніби щойно вийшов із фільму “Зоряні війни”. Двоногий дроїд, що нагадує R2-D2, але з власною виразною особистістю, ходив навколо Хуанга, виразно пищав і кивав головою на радість аудиторії.
“Скажіть, що це не було вражаюче”, — сказав Хуанг під оплески, коли Blue демонстрував свої можливості. Робот був не просто для показу — він демонстрував нове партнерство NVIDIA з Google DeepMind і Disney Research для створення нового фізичного рушія з відкритим кодом під назвою Newton.
“Нам потрібен фізичний рушій, який розроблений для дуже тонкозернистих, жорстких і м’яких тіл, розроблений для можливості навчання тактильного зворотного зв’язку, тонких моторних навичок і керування актуаторами”, — пояснив Хуанг. Рушій Newton, побудований на основі NVIDIA Warp, буде оптимізований для навчання роботів і сумісний із фреймворками симуляції, такими як MuJoCo від Google DeepMind і NVIDIA Isaac Lab.
Кайл Лафлін, старший віце-президент Disney Imagineering Research & Development, пояснив участь Disney: “Дроїди BDX — це лише початок. Ми прагнемо оживити більше персонажів способами, яких світ ще не бачив, і ця співпраця з Disney Research, NVIDIA та Google DeepMind є ключовою частиною цього бачення”.
Можливість на $10 трильйонів
Ставки в цій робототехнічній революції величезні. Хуанг описав роботів як “наступну галузь на $10 трильйонів”, яка вирішує глобальну нестачу робочої сили, що оцінюється більше ніж у 50 мільйонів людей.
Для компаній, що розробляють гуманоїдних роботів, GR00T N1 пропонує суттєвий старт. Замість створення робототехнічного інтелекту з нуля, розробники можуть використовувати базову модель NVIDIA та налаштовувати її для конкретних роботів або завдань за допомогою дотренування.
Бернт Бьорніх, генеральний директор 1X Technologies, одного з перших партнерів, які використовують GR00T N1, підкреслив цю перевагу: “Модель GR00T N1 від NVIDIA забезпечує значний прорив у мисленні та навичках роботів. З мінімальною кількістю даних для дотренування нам вдалося повністю розгорнути її на NEO Gamma — просуваючи нашу місію створення роботів, які є не інструментами, а компаньйонами, здатними допомагати людям значущими, неоціненними способами”.
Інші провідні розробники гуманоїдів з раннім доступом включають Agility Robotics, Boston Dynamics, Mentee Robotics і NEURA Robotics.
Крос-втілення: Неочікуваний поворот
Хоча основна увага GR00T N1 зосереджена на гуманоїдних роботах, Фан розкрив інтригуючу здатність: підтримку крос-втілення. “Ми доналаштували її для роботи на роботизованій руці HuggingFace LeRobot SO100 вартістю $110!” — написав він. Це демонструє, що переваги базової моделі можуть поширюватися за межі дорогих гуманоїдних платформ на більш доступне обладнання.
Захоплення Фана цим розвитком було очевидним у його висновку: “Відкритий мозок робота працює на відкритому обладнанні. Звучить правильно. Давайте вирішувати робототехніку разом, один токен за раз”.
Шлях вперед
Модель GR00T N1, навчальні дані та сценарії оцінки завдань тепер доступні на Hugging Face і GitHub, а NVIDIA Isaac GR00T Blueprint для синтетичної генерації руху маніпуляцій доступний як інтерактивна демонстрація на build.nvidia.com.
Для розробників, які хочуть працювати з цими моделями, NVIDIA також анонсувала персональний ШІ-суперкомп’ютер DGX Spark, що забезпечує готове рішення для розширення можливостей GR00T N1 для нових роботів, завдань і середовищ без великого обсягу спеціального програмування.
Очікується, що фізичний рушій Newton буде доступний пізніше цього року, що ще більше розширить набір інструментів для розробників робототехніки.
Демократизація фізичного ШІ
Що відрізняє підхід NVIDIA, так це його акцент на відкритості та доступності. Роблячи GR00T N1 і пов’язані з ним інструменти широко доступними, NVIDIA позиціонує себе не як єдиного творця робототехнічного інтелекту, а як фундаментальний шар, на якому глобальна спільнота розробників може інноваційно працювати.
Коли робототехніка переходить від спеціалізованих промислових застосувань до універсальних можливостей у різних середовищах, відкритий підхід NVIDIA може прискорити інновації подібно до того, як програмне забезпечення з відкритим кодом трансформувало обчислення. Компанія, яка здобула свою репутацію на графічній обробці для ігор, тепер закладає основу для майбутнього, де інтелектуальні роботи будуть такими ж повсюдними, як сьогодні смартфони.
У робототехнічній спільноті реакції на GR00T N1 були ентузіастичними, хоча залишається певний скептицизм щодо поточних обмежень робототехнічного обладнання. Як зазначив один засновник робототехнічної компанії у відповідь на попередні оновлення GR00T: “Було б добре, якби робототехнічне обладнання було порівнянне з людським. Але воно не є таким. Болюча точка полягає в тому, що роботи — це незграбні, незручні апроксимації, які ніде не близькі до людського еквівалента”.
Тим не менш, бачення NVIDIA ясне: якщо роботи мають стати дійсно універсальними та корисними у незліченних сценаріях людського життя, їм потрібен універсальний інтелект, який може швидко адаптуватися до нових середовищ і завдань. З GR00T N1 це майбутнє стало значно ближчим.
“Ера універсальної робототехніки настала”, — заявив Хуанг. Для галузі, яка часто обіцяла забагато й недостатньо виконувала, систематичний підхід NVIDIA до робототехнічного інтелекту — поєднання базових моделей, генерації синтетичних даних і відкритої співпраці — представляє, можливо, найбільш вірогідний шлях до того, щоб зробити цю заяву реальністю.