خودروهای خودران: بالاخره دارند یاد می‌گیرند مثل ما رانندگی کنند (و این کمی ترسناک است)

خب دوستان، بیایید واقع‌بین باشیم: وعده خودروهای خودران سال‌هاست که مثل هویجی جلوی چشم ما آویزان است. به ما وعده رانندگان روباتیک، سفرهای بدون استرس و توانایی حل جدول در مسیر محل کار داده شده است. اما واقعیت کمی... ناهموار بوده است.

تا همین حالا، به نظر می‌رسد. مقاله‌ای جدید با رویکردی غافلگیرکننده و ساده در حال ایجاد موج است: اجازه دهید خودروها با رقابت با یکدیگر رانندگی را یاد بگیرند. بله، درست خواندید. مثل یک مسابقه تخریب است، اما با الگوریتم‌ها.

گیگافلو: جایی که خودروها به مدرسه رانندگی می‌روند (و هرج و مرج به پا می‌کنند)

رمز موفقیت، سیستمی به نام «گیگافلو» است، یک شبیه‌ساز دسته‌ای که قادر است در هر ساعت ۴۲ سال تجربه رانندگی ذهنی را روی یک گره ۸ GPU تولید و آموزش دهد. تصور کنید یک میدان نبرد دیجیتال که خودروهای خودران در آن به وجود می‌آیند، مجموعه‌ای از قوانین اولیه دریافت می‌کنند (تصادف نکن، به مقصد برس)، و سپس آزاد می‌شوند تا در جاده‌های مجازی با هم رقابت کنند. آن‌ها با آزمون و خطا یاد می‌گیرند و دائماً خود را با سبک‌های رانندگی… بگذارید بگوییم «منحصر به فرد» یکدیگر تطبیق می‌دهند.

نکته جالب: در فقط ۱۰ روز آموزش، این خودروهای هوش مصنوعی بیش از ۱.۶ میلیارد کیلومتر رانندگی کردند - 
این بیشتر از فاصله زمین تا زحل است! چه سفر جاده‌ای...

نتیجه؟ یک سیاست واحد که کاملاً از طریق خودآموزی آموزش دیده است، عملکرد بهتری نسبت به دستاوردهای قبلی در CARLA، nuPlan و مجموعه داده‌های حرکتی باز Waymo نشان می‌دهد.

«تابع پاداش مینیمالیستی» - یا، چگونه به یک خودرو رفتار مناسب را آموزش دهیم (تقریباً)

اینجا بخش واقعاً جالب است. محققان داده‌های ترابایتی رانندگی انسان را به هوش مصنوعی تغذیه نکردند. در عوض، از یک «تابع پاداش مینیمالیستی» استفاده کردند. اساساً، خودروها برای موارد زیر پاداش می‌گیرند:

رسیدن به مقصد
اجتناب از تصادف
ماندن در خط خود
عبور نکردن از چراغ قرمز
حفظ شتاب معقول

مثل آموزش یک توله سگ است. نیازی نیست ساعت‌ها ویدیوی سگ‌های خوش‌رفتار را به او نشان دهید. فقط وقتی می‌نشیند به او جایزه می‌دهید و وقتی کفش‌های مورد علاقه‌تان را می‌جود، او را سرزنش می‌کنید.

خوب، بد و خنده‌دار

خبر خوب این است که این رویکرد به نظر می‌رسد در حال کار کردن است. سیاست حاصل به عملکرد پیشرو در چندین معیار رانندگی خودکار دست می‌یابد و حتی از سیستم‌هایی که با داده‌های واقعی انسانی آموزش دیده‌اند، پیشی می‌گیرد. خودروها همچنین به طور شگفت‌انگیزی مقاوم هستند و به طور میانگین ۱۷.۵ سال رانندگی مداوم بین حوادث در شبیه‌سازی را ثبت می‌کنند.

خبر بد؟ خب، اگر خودروها در حال یادگیری رانندگی مثل ما هستند، این یعنی عادت‌های بد ما را هم یاد می‌گیرند. انتظار داشته باشید خودروهای خودران از جلوی هم بپیچند، در ادغام خطوط رفتار تهاجمی-تدافعی داشته باشند و شاید حتی گاهی خشم جاده‌ای با نیروی هوش مصنوعی را تجربه کنند.

و خنده‌دارترین قسمت؟ آینده‌ای را تصور کنید که خودروهای خودران برای بیش از حد مؤدب بودن برنامه‌ریزی شده‌اند، به هر عابر پیاده راه می‌دهند و اجازه می‌دهند همه از جلویشان وارد شوند. ترافیک متوقف خواهد شد زیرا این خودروهای فوق‌العاده مؤدب در حلقه‌های بی‌پایان «بفرمایید شما، نه، بفرمایید شما» گیر می‌کنند.

آینده (امیدواریم) کمتر ناهموار است

البته، هنوز راه درازی در پیش است. همانطور که خود محققان اشاره می‌کنند، بسیاری از تخلفات هوش مصنوعی در طول آزمایش به دلیل محدودیت‌های خود معیارهای سنجش بود، مانند عابران پیاده‌ای که بدون نگاه کردن به خیابان می‌پرند. اما این واقعیت که خودروهای خودران می‌توانند از طریق خودآموزی یاد بگیرند در محیط‌های پیچیده و غیرقابل پیش‌بینی حرکت کنند، گامی بزرگ به جلو است.

پس، دفعه بعد که یک خودروی خودران در جاده دیدید، به یاد داشته باشید که احتمالاً بیشتر از کل زندگی شما ترافیک‌های شبیه‌سازی شده و وضعیت‌های نزدیک به تصادف را تجربه کرده است. و اگر از جلوی شما پیچید، فقط به یاد داشته باشید: احتمالاً از بهترین‌ها (یا بدترین‌های) ما یاد گرفته است.

یادداشت سردبیر: هیچ خودروی واقعی در ساخت این سیستم هوش مصنوعی آسیب ندید.
اگرچه بعضی از نمونه‌های مجازی قطعاً روز سختی را در محل کار گذراندند.

منبع: Robust Autonomy Emerges from Self-Play