Navigáció

انقلاب رباتیک متن‌باز است: GR00T N1 شرکت NVIDIA عصر رباتیک عمومی را آغاز می‌کند

# انقلاب رباتیک منبع باز: NVIDIA با GR00T N1 عصر رباتیک عمومی را آغاز می‌کند

در مرکز پهناور SAP در سن‌خوزه، در میان انتظار پرشور هزاران توسعه‌دهنده و متخصص فناوری، جنسن هوانگ، مدیرعامل NVIDIA با کت چرمی نمادین خود روی صحنه قدم زد، لحظه‌ای مکث کرد و با لحنی دراماتیک اعلام کرد: «عصر رباتیک عمومی فرا رسیده است.» این اعلام که روز سه‌شنبه در کنفرانس GTC 2025 شرکت NVIDIA ارائه شد، بیش از یک اغراق معمولی بود—این رونمایی از آنچه می‌تواند لحظه‌ی اندرویدی برای رباتیک باشد: NVIDIA Isaac GR00T N1، اولین مدل پایه‌ی رباتیک انسان‌نمای منبع باز جهان.

مغزی برای هر بدن: دموکراتیزه کردن هوش رباتیک

GR00T N1 که در تضاد آشکار با سیستم‌های هوش مصنوعی اختصاصی که امروزه در صدر اخبار قرار دارند، رویکردی اساساً متفاوت به هوش رباتیک را نمایندگی می‌کند—رویکردی مبتنی بر باز بودن، دسترسی‌پذیری و چشم‌اندازی از ربات‌هایی که می‌توانند بدون برنامه‌نویسی تخصصی برای هر سناریو، در محیط‌ها و وظایف مختلف تعمیم پیدا کنند.

هوانگ به جمعیت متراکم حاضر در سالن در سخنرانی کلیدی خود که بیش از دو ساعت طول کشید، گفت: «با NVIDIA Isaac GR00T N1 و چارچوب‌های جدید تولید داده و یادگیری رباتیک، توسعه‌دهندگان رباتیک در سراسر جهان مرز بعدی را در عصر هوش مصنوعی خواهند گشود.» این اظهارات، استراتژی بلندپروازانه NVIDIA را خلاصه می‌کند: ایجاد هوش زیربنایی که نسل بعدی ربات‌های انسان‌نما را قدرت می‌بخشد، و سپس آن را به صورت رایگان در اختیار توسعه‌دهندگان سراسر جهان قرار می‌دهد.

آنچه این اعلام را به‌ویژه مهم می‌کند، این است که چگونه پایدارترین چالش در رباتیک—مقیاس‌پذیری داده‌های آموزشی—را مورد توجه قرار می‌دهد. همانطور که جیم فن، مدیر ارشد تحقیقات NVIDIA و رهبر هوش مصنوعی تجسم‌یافته، در پستی در لینکدین پس از سخنرانی کلیدی توضیح داد: «ما در مأموریتی برای دموکراتیزه کردن هوش مصنوعی فیزیکی هستیم. قدرت مغز عمومی ربات، در کف دست شما—با تنها ۲ میلیارد پارامتر، N1 از متنوع‌ترین مجموعه داده‌ی اقدامات فیزیکی که تاکنون جمع‌آوری شده، یاد می‌گیرد و فراتر از وزن خود عمل می‌کند.»

ربات با تفکر سریع و آهسته

در قلب GR00T N1، معماری دوگانه‌ای الهام گرفته از شناخت انسانی قرار دارد—آنچه NVIDIA آن را تفکر «سریع و آهسته» می‌نامد. این رویکرد از نظریه‌های علوم شناختی الهام می‌گیرد که تفکر انسان را به دو سیستم تقسیم می‌کند: واکنش‌های شهودی و خودکار، و استدلال عمدی و روش‌مند.

«سیستم ۲»، مؤلفه‌ی تفکر آهسته، از مدل زبان بینایی برای درک و استدلال درباره‌ی محیط ربات و دستورالعمل‌هایی که دریافت می‌کند استفاده می‌کند، سپس اقدامات مناسب را برنامه‌ریزی می‌کند. «سیستم ۱»، مؤلفه‌ی تفکر سریع، این برنامه‌ها را به حرکات دقیق و پیوسته‌ی ربات با نرخ اجرای ۱۲۰ هرتز تبدیل می‌کند. این معماری به ربات‌ها امکان می‌دهد وظایف پیچیده‌ای را که نیازمند هم تأمل و هم حرکت روان هستند—برداشتن اشیاء، دستکاری آنها با یک یا هر دو دست، و انجام توالی چند مرحله‌ای—را انجام دهند.

در نمایشی که به وضوح حاضران را هیجان‌زده کرد، هوانگ نشان داد که ربات انسان‌نمای Neo ساخت شرکت 1X به طور خودکار وظایف مرتب‌سازی خانه را با استفاده از سیاست‌های مبتنی بر GR00T N1 انجام می‌دهد. حرکات روان ربات و درک آشکار آن از محیط، پتانسیل مدل را برای کاربردهای عملی برجسته کرد.

شکستن مانع داده با واقعیت مصنوعی

شاید انقلابی‌ترین جنبه‌ی رویکرد NVIDIA، نحوه‌ی حل مسئله بنیادی داده در رباتیک باشد. در حالی که مدل‌های زبانی می‌توانند روی مجموعه‌ی عظیم متنی اینترنت آموزش ببینند، یادگیری رباتیک به طور سنتی توسط محدودیت‌های دنیای فیزیکی محدود شده است—یک نمایشگر انسانی تنها می‌تواند ۲۴ ساعت داده‌ی آموزشی در روز تولید کند.

راوی در ویدیوی معرفی GR00T N1 توضیح داد: «داده‌های نمایشی انسان توسط تعداد ساعات روز محدود شده است.» برای غلبه بر این محدودیت، NVIDIA چارچوب‌هایی را توسعه داده است که نمایش‌های دنیای واقعی را به صورت نمایی به مجموعه‌های داده مصنوعی عظیم تبدیل می‌کند.

با استفاده از اولین اجزای NVIDIA Isaac GR00T Blueprint، این شرکت ۷۸۰,۰۰۰ مسیر مصنوعی تولید کرد—معادل نه ماه مداوم داده‌ی نمایش انسانی—در تنها ۱۱ ساعت. وقتی با داده‌های واقعی ترکیب شد، این مجموعه داده‌ی مصنوعی عملکرد GR00T N1 را در مقایسه با استفاده از داده‌های واقعی به تنهایی، ۴۰ درصد بهبود بخشید.

این رویکرد از سه منبع داده استفاده می‌کند: داده‌های تله‌اپرشن انسان‌نمای واقعی (جمع‌آوری شده با استفاده از سیستم‌هایی مانند Apple Vision Pro برای کنترل غوطه‌ور)، داده‌های شبیه‌سازی مقیاس بزرگ (که NVIDIA آن را با بیش از ۳۰۰,۰۰۰ مسیر منبع باز می‌کند)، و آنچه فن «مسیرهای عصبی» می‌نامد—استفاده از پیشرفته‌ترین مدل‌های تولید ویدیو برای «توهم» داده‌های مصنوعی جدید با فیزیک دقیق.

فن در پست خود به نقل از هوانگ نوشت: «به قول جنسن، ‘داده‌های سیستماتیک بی‌نهایت’!» که به توصیف هوانگ از این رویکرد به تولید داده اشاره می‌کند.

لحظه‌ی جنگ ستارگان: «بلو» ستاره‌ی نمایش

در لحظه‌ای که حاضران را مجبور به برداشتن تلفن‌هایشان کرد، هوانگ «بلو» را معرفی کرد، رباتی کاریزماتیک که انگار از فیلم جنگ ستارگان بیرون آمده است. این ربات دوپا، که یادآور R2-D2 است اما با شخصیت متمایز خودش، اطراف هوانگ راه رفت، به طرز بیانگری بوق زد و سرش را برای خوشامدگویی به حاضران تکان داد.

هوانگ در میان تشویق حاضران گفت: «به من بگویید که این شگفت‌انگیز نبود»، همانطور که بلو قابلیت‌های خود را نمایش می‌داد. این ربات فقط برای نمایش نبود—مشارکت جدید NVIDIA با Google DeepMind و Disney Research برای ساخت موتور فیزیک منبع باز جدیدی به نام Newton را نمایش می‌داد.

هوانگ توضیح داد: «ما به موتور فیزیکی نیاز داریم که برای اجسام صلب و نرم بسیار دقیق طراحی شده، برای توانایی آموزش بازخورد لمسی و مهارت‌های حرکتی ظریف و کنترل‌های عملگر طراحی شده باشد.» موتور Newton، که بر پایه‌ی چارچوب NVIDIA Warp ساخته شده، برای یادگیری رباتیک بهینه‌سازی خواهد شد و با چارچوب‌های شبیه‌سازی مانند MuJoCo از Google DeepMind و NVIDIA Isaac Lab سازگار خواهد بود.

کایل لافلین، معاون ارشد تحقیق و توسعه‌ی Walt Disney Imagineering، زمینه‌ای برای مشارکت دیزنی ارائه داد: «رباتهای BDX تازه آغاز کار هستند. ما متعهد هستیم که شخصیت‌های بیشتری را به روش‌هایی که جهان قبلاً ندیده است به زندگی بیاوریم، و این همکاری با Disney Research، NVIDIA و Google DeepMind بخش کلیدی از این چشم‌انداز است.»

فرصت ۱۰ تریلیون دلاری

سهم در این انقلاب رباتیک عظیم است. هوانگ ربات‌ها را «صنعت ۱۰ تریلیون دلاری بعدی» توصیف کرد که به کمبود نیروی کار جهانی که بیش از ۵۰ میلیون نفر تخمین زده می‌شود، رسیدگی می‌کند.

برای شرکت‌هایی که ربات‌های انسان‌نما توسعه می‌دهند، GR00T N1 یک شروع قابل توجه ارائه می‌دهد. به جای ساخت هوش رباتیک از صفر، توسعه‌دهندگان می‌توانند از مدل پایه‌ی NVIDIA استفاده کنند و آن را از طریق آموزش پس از تولید برای ربات‌ها یا وظایف خاص سفارشی‌سازی کنند.

برنت بورنیک، مدیرعامل 1X Technologies، یکی از شرکای اولیه‌ای که از GR00T N1 استفاده می‌کند، بر این مزیت تأکید کرد: «مدل GR00T N1 نویدیا یک پیشرفت عمده برای استدلال و مهارت‌های رباتیک فراهم می‌کند. با حداقل مقدار داده‌ی آموزش پس از تولید، ما توانستیم آن را به طور کامل روی NEO Gamma مستقر کنیم—پیشبرد مأموریت ما برای ایجاد ربات‌هایی که ابزار نیستند، بلکه همراهانی هستند که می‌توانند به روش‌های معنادار و غیرقابل اندازه‌گیری به انسان‌ها کمک کنند.»

سایر توسعه‌دهندگان پیشرو انسان‌نما با دسترسی اولیه شامل Agility Robotics، Boston Dynamics، Mentee Robotics و NEURA Robotics هستند.

تجسم متقاطع: پیچش غیرمنتظره

در حالی که ربات‌های انسان‌نما تمرکز اصلی GR00T N1 هستند، فن قابلیتی جالب را آشکار کرد: پشتیبانی از تجسم متقاطع. او نوشت: «ما آن را تنظیم کرده‌ایم تا روی بازوی رباتیک HuggingFace LeRobot SO100 به قیمت ۱۱۰ دلار کار کند!» این نشان می‌دهد که مزایای مدل پایه می‌تواند فراتر از پلتفرم‌های انسان‌نمای گران‌قیمت به سخت‌افزارهای قابل دسترس‌تر گسترش یابد.

هیجان فن درباره‌ی این پیشرفت در نتیجه‌گیری او آشکار بود: «مغز رباتیک باز روی سخت‌افزار باز اجرا می‌شود. درست به نظر می‌رسد. بیایید رباتیک را با هم، یک توکن در یک زمان، حل کنیم.»

راه پیش رو

مدل GR00T N1، داده‌های آموزشی، و سناریوهای ارزیابی وظیفه اکنون در Hugging Face و GitHub در دسترس هستند، با NVIDIA Isaac GR00T Blueprint برای تولید حرکت دستکاری مصنوعی که به عنوان یک نمایش تعاملی در build.nvidia.com در دسترس است.

برای توسعه‌دهندگانی که می‌خواهند با این مدل‌ها کار کنند، NVIDIA همچنین ابررایانه‌ی هوش مصنوعی شخصی DGX Spark را معرفی کرد که یک سیستم آماده به کار برای گسترش قابلیت‌های GR00T N1 برای ربات‌ها، وظایف و محیط‌های جدید بدون برنامه‌نویسی سفارشی گسترده ارائه می‌دهد.

انتظار می‌رود موتور فیزیک Newton در اواخر امسال در دسترس قرار گیرد و مجموعه ابزارها را برای توسعه‌دهندگان رباتیک بیشتر گسترش دهد.

دموکراتیزه کردن هوش مصنوعی فیزیکی

آنچه رویکرد NVIDIA را متمایز می‌کند، تأکید آن بر باز بودن و دسترسی‌پذیری است. با در دسترس قرار دادن گسترده‌ی GR00T N1 و ابزارهای مرتبط با آن، NVIDIA خود را نه به عنوان سازنده‌ی انحصاری هوش رباتیک، بلکه به عنوان لایه‌ی پایه‌ای قرار می‌دهد که جامعه‌ی جهانی توسعه‌دهندگان می‌توانند روی آن نوآوری کنند.

همچنان که رباتیک از کاربردهای صنعتی تخصصی به قابلیت‌های عمومی در محیط‌های متنوع منتقل می‌شود، رویکرد باز NVIDIA می‌تواند نوآوری را به روش‌هایی مشابه با آنچه نرم‌افزار منبع باز محاسبات را متحول کرد، تسریع کند. شرکتی که شهرت خود را در پردازش گرافیکی برای بازی ساخته است، اکنون زیربنای آینده‌ای را پایه‌گذاری می‌کند که در آن ربات‌های هوشمند به اندازه‌ی گوشی‌های هوشمند امروزی فراگیر هستند.

در جامعه‌ی رباتیک، واکنش‌ها به GR00T N1 پرشور بوده است، هرچند برخی تردیدها درباره‌ی محدودیت‌های فعلی سخت‌افزار رباتیک باقی مانده است. همانطور که یکی از بنیانگذاران شرکت رباتیک در پاسخ به بروزرسانی قبلی GR00T اشاره کرد، «اگر سخت‌افزار رباتیک قابل مقایسه با انسان بود، مشکلی نبود. که نیست. نقطه‌ی درد این است که ربات‌ها تقریب‌های ناشیانه و دست و پا چلفتی هستند و به هیچ وجه معادل انسان نیستند.»

با این حال، چشم‌انداز NVIDIA روشن است: اگر ربات‌ها قرار است واقعاً همه‌کاره و مفید در بی‌شمار سناریوهای زندگی انسان باشند، آنها به هوشی عمومی نیاز دارند که بتواند به سرعت با محیط‌ها و وظایف جدید سازگار شود. با GR00T N1، آن آینده یک گام قابل توجه نزدیک‌تر شده است.

هوانگ اعلام کرد: «عصر رباتیک عمومی اینجاست.» برای حوزه‌ای که اغلب بیش از حد وعده داده و کمتر از انتظار عمل کرده است، رویکرد سیستماتیک NVIDIA به هوش رباتیک—ترکیب مدل‌های پایه، تولید داده‌ی مصنوعی و همکاری باز—شاید معتبرترین مسیر تاکنون برای تبدیل این اعلام به واقعیت باشد.