تا همین حالا، به نظر میرسد. مقالهای جدید با رویکردی غافلگیرکننده و ساده در حال ایجاد موج است: اجازه دهید خودروها با رقابت با یکدیگر رانندگی را یاد بگیرند. بله، درست خواندید. مثل یک مسابقه تخریب است، اما با الگوریتمها.
گیگافلو: جایی که خودروها به مدرسه رانندگی میروند (و هرج و مرج به پا میکنند)
رمز موفقیت، سیستمی به نام «گیگافلو» است، یک شبیهساز دستهای که قادر است در هر ساعت ۴۲ سال تجربه رانندگی ذهنی را روی یک گره ۸ GPU تولید و آموزش دهد. تصور کنید یک میدان نبرد دیجیتال که خودروهای خودران در آن به وجود میآیند، مجموعهای از قوانین اولیه دریافت میکنند (تصادف نکن، به مقصد برس)، و سپس آزاد میشوند تا در جادههای مجازی با هم رقابت کنند. آنها با آزمون و خطا یاد میگیرند و دائماً خود را با سبکهای رانندگی… بگذارید بگوییم «منحصر به فرد» یکدیگر تطبیق میدهند.
نکته جالب: در فقط ۱۰ روز آموزش، این خودروهای هوش مصنوعی بیش از ۱.۶ میلیارد کیلومتر رانندگی کردند -
این بیشتر از فاصله زمین تا زحل است! چه سفر جادهای...
نتیجه؟ یک سیاست واحد که کاملاً از طریق خودآموزی آموزش دیده است، عملکرد بهتری نسبت به دستاوردهای قبلی در CARLA، nuPlan و مجموعه دادههای حرکتی باز Waymo نشان میدهد.
«تابع پاداش مینیمالیستی» - یا، چگونه به یک خودرو رفتار مناسب را آموزش دهیم (تقریباً)
اینجا بخش واقعاً جالب است. محققان دادههای ترابایتی رانندگی انسان را به هوش مصنوعی تغذیه نکردند. در عوض، از یک «تابع پاداش مینیمالیستی» استفاده کردند. اساساً، خودروها برای موارد زیر پاداش میگیرند:
- رسیدن به مقصد
- اجتناب از تصادف
- ماندن در خط خود
- عبور نکردن از چراغ قرمز
- حفظ شتاب معقول
مثل آموزش یک توله سگ است. نیازی نیست ساعتها ویدیوی سگهای خوشرفتار را به او نشان دهید. فقط وقتی مینشیند به او جایزه میدهید و وقتی کفشهای مورد علاقهتان را میجود، او را سرزنش میکنید.
خوب، بد و خندهدار
خبر خوب این است که این رویکرد به نظر میرسد در حال کار کردن است. سیاست حاصل به عملکرد پیشرو در چندین معیار رانندگی خودکار دست مییابد و حتی از سیستمهایی که با دادههای واقعی انسانی آموزش دیدهاند، پیشی میگیرد. خودروها همچنین به طور شگفتانگیزی مقاوم هستند و به طور میانگین ۱۷.۵ سال رانندگی مداوم بین حوادث در شبیهسازی را ثبت میکنند.
خبر بد؟ خب، اگر خودروها در حال یادگیری رانندگی مثل ما هستند، این یعنی عادتهای بد ما را هم یاد میگیرند. انتظار داشته باشید خودروهای خودران از جلوی هم بپیچند، در ادغام خطوط رفتار تهاجمی-تدافعی داشته باشند و شاید حتی گاهی خشم جادهای با نیروی هوش مصنوعی را تجربه کنند.
و خندهدارترین قسمت؟ آیندهای را تصور کنید که خودروهای خودران برای بیش از حد مؤدب بودن برنامهریزی شدهاند، به هر عابر پیاده راه میدهند و اجازه میدهند همه از جلویشان وارد شوند. ترافیک متوقف خواهد شد زیرا این خودروهای فوقالعاده مؤدب در حلقههای بیپایان «بفرمایید شما، نه، بفرمایید شما» گیر میکنند.
آینده (امیدواریم) کمتر ناهموار است
البته، هنوز راه درازی در پیش است. همانطور که خود محققان اشاره میکنند، بسیاری از تخلفات هوش مصنوعی در طول آزمایش به دلیل محدودیتهای خود معیارهای سنجش بود، مانند عابران پیادهای که بدون نگاه کردن به خیابان میپرند. اما این واقعیت که خودروهای خودران میتوانند از طریق خودآموزی یاد بگیرند در محیطهای پیچیده و غیرقابل پیشبینی حرکت کنند، گامی بزرگ به جلو است.
پس، دفعه بعد که یک خودروی خودران در جاده دیدید، به یاد داشته باشید که احتمالاً بیشتر از کل زندگی شما ترافیکهای شبیهسازی شده و وضعیتهای نزدیک به تصادف را تجربه کرده است. و اگر از جلوی شما پیچید، فقط به یاد داشته باشید: احتمالاً از بهترینها (یا بدترینهای) ما یاد گرفته است.
یادداشت سردبیر: هیچ خودروی واقعی در ساخت این سیستم هوش مصنوعی آسیب ندید.
اگرچه بعضی از نمونههای مجازی قطعاً روز سختی را در محل کار گذراندند.