در مرکز پهناور SAP در سنخوزه، در میان انتظار پرشور هزاران توسعهدهنده و متخصص فناوری، جنسن هوانگ، مدیرعامل NVIDIA با کت چرمی نمادین خود روی صحنه قدم زد، لحظهای مکث کرد و با لحنی دراماتیک اعلام کرد: «عصر رباتیک عمومی فرا رسیده است.» این اعلام که روز سهشنبه در کنفرانس GTC 2025 شرکت NVIDIA ارائه شد، بیش از یک اغراق معمولی بود—این رونمایی از آنچه میتواند لحظهی اندرویدی برای رباتیک باشد: NVIDIA Isaac GR00T N1، اولین مدل پایهی رباتیک انساننمای منبع باز جهان.
مغزی برای هر بدن: دموکراتیزه کردن هوش رباتیک
GR00T N1 که در تضاد آشکار با سیستمهای هوش مصنوعی اختصاصی که امروزه در صدر اخبار قرار دارند، رویکردی اساساً متفاوت به هوش رباتیک را نمایندگی میکند—رویکردی مبتنی بر باز بودن، دسترسیپذیری و چشماندازی از رباتهایی که میتوانند بدون برنامهنویسی تخصصی برای هر سناریو، در محیطها و وظایف مختلف تعمیم پیدا کنند.
هوانگ به جمعیت متراکم حاضر در سالن در سخنرانی کلیدی خود که بیش از دو ساعت طول کشید، گفت: «با NVIDIA Isaac GR00T N1 و چارچوبهای جدید تولید داده و یادگیری رباتیک، توسعهدهندگان رباتیک در سراسر جهان مرز بعدی را در عصر هوش مصنوعی خواهند گشود.» این اظهارات، استراتژی بلندپروازانه NVIDIA را خلاصه میکند: ایجاد هوش زیربنایی که نسل بعدی رباتهای انساننما را قدرت میبخشد، و سپس آن را به صورت رایگان در اختیار توسعهدهندگان سراسر جهان قرار میدهد.
آنچه این اعلام را بهویژه مهم میکند، این است که چگونه پایدارترین چالش در رباتیک—مقیاسپذیری دادههای آموزشی—را مورد توجه قرار میدهد. همانطور که جیم فن، مدیر ارشد تحقیقات NVIDIA و رهبر هوش مصنوعی تجسمیافته، در پستی در لینکدین پس از سخنرانی کلیدی توضیح داد: «ما در مأموریتی برای دموکراتیزه کردن هوش مصنوعی فیزیکی هستیم. قدرت مغز عمومی ربات، در کف دست شما—با تنها ۲ میلیارد پارامتر، N1 از متنوعترین مجموعه دادهی اقدامات فیزیکی که تاکنون جمعآوری شده، یاد میگیرد و فراتر از وزن خود عمل میکند.»
ربات با تفکر سریع و آهسته
در قلب GR00T N1، معماری دوگانهای الهام گرفته از شناخت انسانی قرار دارد—آنچه NVIDIA آن را تفکر «سریع و آهسته» مینامد. این رویکرد از نظریههای علوم شناختی الهام میگیرد که تفکر انسان را به دو سیستم تقسیم میکند: واکنشهای شهودی و خودکار، و استدلال عمدی و روشمند.
«سیستم ۲»، مؤلفهی تفکر آهسته، از مدل زبان بینایی برای درک و استدلال دربارهی محیط ربات و دستورالعملهایی که دریافت میکند استفاده میکند، سپس اقدامات مناسب را برنامهریزی میکند. «سیستم ۱»، مؤلفهی تفکر سریع، این برنامهها را به حرکات دقیق و پیوستهی ربات با نرخ اجرای ۱۲۰ هرتز تبدیل میکند. این معماری به رباتها امکان میدهد وظایف پیچیدهای را که نیازمند هم تأمل و هم حرکت روان هستند—برداشتن اشیاء، دستکاری آنها با یک یا هر دو دست، و انجام توالی چند مرحلهای—را انجام دهند.
در نمایشی که به وضوح حاضران را هیجانزده کرد، هوانگ نشان داد که ربات انساننمای Neo ساخت شرکت 1X به طور خودکار وظایف مرتبسازی خانه را با استفاده از سیاستهای مبتنی بر GR00T N1 انجام میدهد. حرکات روان ربات و درک آشکار آن از محیط، پتانسیل مدل را برای کاربردهای عملی برجسته کرد.
شکستن مانع داده با واقعیت مصنوعی
شاید انقلابیترین جنبهی رویکرد NVIDIA، نحوهی حل مسئله بنیادی داده در رباتیک باشد. در حالی که مدلهای زبانی میتوانند روی مجموعهی عظیم متنی اینترنت آموزش ببینند، یادگیری رباتیک به طور سنتی توسط محدودیتهای دنیای فیزیکی محدود شده است—یک نمایشگر انسانی تنها میتواند ۲۴ ساعت دادهی آموزشی در روز تولید کند.
راوی در ویدیوی معرفی GR00T N1 توضیح داد: «دادههای نمایشی انسان توسط تعداد ساعات روز محدود شده است.» برای غلبه بر این محدودیت، NVIDIA چارچوبهایی را توسعه داده است که نمایشهای دنیای واقعی را به صورت نمایی به مجموعههای داده مصنوعی عظیم تبدیل میکند.
با استفاده از اولین اجزای NVIDIA Isaac GR00T Blueprint، این شرکت ۷۸۰,۰۰۰ مسیر مصنوعی تولید کرد—معادل نه ماه مداوم دادهی نمایش انسانی—در تنها ۱۱ ساعت. وقتی با دادههای واقعی ترکیب شد، این مجموعه دادهی مصنوعی عملکرد GR00T N1 را در مقایسه با استفاده از دادههای واقعی به تنهایی، ۴۰ درصد بهبود بخشید.
این رویکرد از سه منبع داده استفاده میکند: دادههای تلهاپرشن انساننمای واقعی (جمعآوری شده با استفاده از سیستمهایی مانند Apple Vision Pro برای کنترل غوطهور)، دادههای شبیهسازی مقیاس بزرگ (که NVIDIA آن را با بیش از ۳۰۰,۰۰۰ مسیر منبع باز میکند)، و آنچه فن «مسیرهای عصبی» مینامد—استفاده از پیشرفتهترین مدلهای تولید ویدیو برای «توهم» دادههای مصنوعی جدید با فیزیک دقیق.
فن در پست خود به نقل از هوانگ نوشت: «به قول جنسن، ‘دادههای سیستماتیک بینهایت’!» که به توصیف هوانگ از این رویکرد به تولید داده اشاره میکند.
لحظهی جنگ ستارگان: «بلو» ستارهی نمایش
در لحظهای که حاضران را مجبور به برداشتن تلفنهایشان کرد، هوانگ «بلو» را معرفی کرد، رباتی کاریزماتیک که انگار از فیلم جنگ ستارگان بیرون آمده است. این ربات دوپا، که یادآور R2-D2 است اما با شخصیت متمایز خودش، اطراف هوانگ راه رفت، به طرز بیانگری بوق زد و سرش را برای خوشامدگویی به حاضران تکان داد.
هوانگ در میان تشویق حاضران گفت: «به من بگویید که این شگفتانگیز نبود»، همانطور که بلو قابلیتهای خود را نمایش میداد. این ربات فقط برای نمایش نبود—مشارکت جدید NVIDIA با Google DeepMind و Disney Research برای ساخت موتور فیزیک منبع باز جدیدی به نام Newton را نمایش میداد.
هوانگ توضیح داد: «ما به موتور فیزیکی نیاز داریم که برای اجسام صلب و نرم بسیار دقیق طراحی شده، برای توانایی آموزش بازخورد لمسی و مهارتهای حرکتی ظریف و کنترلهای عملگر طراحی شده باشد.» موتور Newton، که بر پایهی چارچوب NVIDIA Warp ساخته شده، برای یادگیری رباتیک بهینهسازی خواهد شد و با چارچوبهای شبیهسازی مانند MuJoCo از Google DeepMind و NVIDIA Isaac Lab سازگار خواهد بود.
کایل لافلین، معاون ارشد تحقیق و توسعهی Walt Disney Imagineering، زمینهای برای مشارکت دیزنی ارائه داد: «رباتهای BDX تازه آغاز کار هستند. ما متعهد هستیم که شخصیتهای بیشتری را به روشهایی که جهان قبلاً ندیده است به زندگی بیاوریم، و این همکاری با Disney Research، NVIDIA و Google DeepMind بخش کلیدی از این چشمانداز است.»
فرصت ۱۰ تریلیون دلاری
سهم در این انقلاب رباتیک عظیم است. هوانگ رباتها را «صنعت ۱۰ تریلیون دلاری بعدی» توصیف کرد که به کمبود نیروی کار جهانی که بیش از ۵۰ میلیون نفر تخمین زده میشود، رسیدگی میکند.
برای شرکتهایی که رباتهای انساننما توسعه میدهند، GR00T N1 یک شروع قابل توجه ارائه میدهد. به جای ساخت هوش رباتیک از صفر، توسعهدهندگان میتوانند از مدل پایهی NVIDIA استفاده کنند و آن را از طریق آموزش پس از تولید برای رباتها یا وظایف خاص سفارشیسازی کنند.
برنت بورنیک، مدیرعامل 1X Technologies، یکی از شرکای اولیهای که از GR00T N1 استفاده میکند، بر این مزیت تأکید کرد: «مدل GR00T N1 نویدیا یک پیشرفت عمده برای استدلال و مهارتهای رباتیک فراهم میکند. با حداقل مقدار دادهی آموزش پس از تولید، ما توانستیم آن را به طور کامل روی NEO Gamma مستقر کنیم—پیشبرد مأموریت ما برای ایجاد رباتهایی که ابزار نیستند، بلکه همراهانی هستند که میتوانند به روشهای معنادار و غیرقابل اندازهگیری به انسانها کمک کنند.»
سایر توسعهدهندگان پیشرو انساننما با دسترسی اولیه شامل Agility Robotics، Boston Dynamics، Mentee Robotics و NEURA Robotics هستند.
تجسم متقاطع: پیچش غیرمنتظره
در حالی که رباتهای انساننما تمرکز اصلی GR00T N1 هستند، فن قابلیتی جالب را آشکار کرد: پشتیبانی از تجسم متقاطع. او نوشت: «ما آن را تنظیم کردهایم تا روی بازوی رباتیک HuggingFace LeRobot SO100 به قیمت ۱۱۰ دلار کار کند!» این نشان میدهد که مزایای مدل پایه میتواند فراتر از پلتفرمهای انساننمای گرانقیمت به سختافزارهای قابل دسترستر گسترش یابد.
هیجان فن دربارهی این پیشرفت در نتیجهگیری او آشکار بود: «مغز رباتیک باز روی سختافزار باز اجرا میشود. درست به نظر میرسد. بیایید رباتیک را با هم، یک توکن در یک زمان، حل کنیم.»
راه پیش رو
مدل GR00T N1، دادههای آموزشی، و سناریوهای ارزیابی وظیفه اکنون در Hugging Face و GitHub در دسترس هستند، با NVIDIA Isaac GR00T Blueprint برای تولید حرکت دستکاری مصنوعی که به عنوان یک نمایش تعاملی در build.nvidia.com در دسترس است.
برای توسعهدهندگانی که میخواهند با این مدلها کار کنند، NVIDIA همچنین ابررایانهی هوش مصنوعی شخصی DGX Spark را معرفی کرد که یک سیستم آماده به کار برای گسترش قابلیتهای GR00T N1 برای رباتها، وظایف و محیطهای جدید بدون برنامهنویسی سفارشی گسترده ارائه میدهد.
انتظار میرود موتور فیزیک Newton در اواخر امسال در دسترس قرار گیرد و مجموعه ابزارها را برای توسعهدهندگان رباتیک بیشتر گسترش دهد.
دموکراتیزه کردن هوش مصنوعی فیزیکی
آنچه رویکرد NVIDIA را متمایز میکند، تأکید آن بر باز بودن و دسترسیپذیری است. با در دسترس قرار دادن گستردهی GR00T N1 و ابزارهای مرتبط با آن، NVIDIA خود را نه به عنوان سازندهی انحصاری هوش رباتیک، بلکه به عنوان لایهی پایهای قرار میدهد که جامعهی جهانی توسعهدهندگان میتوانند روی آن نوآوری کنند.
همچنان که رباتیک از کاربردهای صنعتی تخصصی به قابلیتهای عمومی در محیطهای متنوع منتقل میشود، رویکرد باز NVIDIA میتواند نوآوری را به روشهایی مشابه با آنچه نرمافزار منبع باز محاسبات را متحول کرد، تسریع کند. شرکتی که شهرت خود را در پردازش گرافیکی برای بازی ساخته است، اکنون زیربنای آیندهای را پایهگذاری میکند که در آن رباتهای هوشمند به اندازهی گوشیهای هوشمند امروزی فراگیر هستند.
در جامعهی رباتیک، واکنشها به GR00T N1 پرشور بوده است، هرچند برخی تردیدها دربارهی محدودیتهای فعلی سختافزار رباتیک باقی مانده است. همانطور که یکی از بنیانگذاران شرکت رباتیک در پاسخ به بروزرسانی قبلی GR00T اشاره کرد، «اگر سختافزار رباتیک قابل مقایسه با انسان بود، مشکلی نبود. که نیست. نقطهی درد این است که رباتها تقریبهای ناشیانه و دست و پا چلفتی هستند و به هیچ وجه معادل انسان نیستند.»
با این حال، چشمانداز NVIDIA روشن است: اگر رباتها قرار است واقعاً همهکاره و مفید در بیشمار سناریوهای زندگی انسان باشند، آنها به هوشی عمومی نیاز دارند که بتواند به سرعت با محیطها و وظایف جدید سازگار شود. با GR00T N1، آن آینده یک گام قابل توجه نزدیکتر شده است.
هوانگ اعلام کرد: «عصر رباتیک عمومی اینجاست.» برای حوزهای که اغلب بیش از حد وعده داده و کمتر از انتظار عمل کرده است، رویکرد سیستماتیک NVIDIA به هوش رباتیک—ترکیب مدلهای پایه، تولید دادهی مصنوعی و همکاری باز—شاید معتبرترین مسیر تاکنون برای تبدیل این اعلام به واقعیت باشد.