Гаразд, друзі, давайте визнаємо: обіцянка автомобілів з автопілотом висіла перед нами як морквина на палиці роками. Нам обіцяли роботів-шоферів, поїздки без стресу та можливість нарешті розгадати кросворд по дорозі на роботу. Але реальність виявилася трохи… нерівною.
Здається, до сьогодні. Нова стаття викликає резонанс завдяки напрочуд простому підходу: дозволити автомобілям вчитися водінню, змагаючись один з одним. Так, ви правильно прочитали. Це як дербі на виживання, але з алгоритмами.
Gigaflow: Де Автомобілі Навчаються Водінню (і Створюють Хаос)
Секретним соусом є система під назвою “Gigaflow” - пакетний симулятор, здатний синтезувати та тренуватися на 42 роках суб’єктивного досвіду водіння за годину на одному 8-GPU вузлі. Уявіть цифровий Тандердом, де самокеровані автомобілі з’являються, отримують базовий набір правил (не розбитися, дістатися до пункту призначення) і випускаються битися на віртуальних дорогах. Вони вчаться методом спроб і помилок, постійно адаптуючись до… назвімо це “унікальними” стилями водіння один одного.
Цікавий факт: За лише 10 днів тренувань ці ШІ-автомобілі проїхали понад 1,6 мільярда
кілометрів - це більше, ніж відстань від Землі до Сатурна! От це я розумію подорож...
Результат? Єдина політика, навчена повністю через самонавчання, перевершує попередні найкращі показники на CARLA, nuPlan та наборі даних Waymo Open Motion Dataset.
“Мінімалістична Функція Винагороди” – Або Як Навчити Автомобіль Поводитися (Більш-Менш)
Ось найцікавіша частина. Дослідники не годували ШІ терабайтами даних про водіння людини. Натомість вони використовували “мінімалістичну функцію винагороди”. По суті, автомобілі отримують винагороду за:
- Досягнення пункту призначення
- Уникнення зіткнень
- Утримання в своїй смузі
- Дотримання червоного світла
- Підтримання розумного прискорення
Це як дресирувати цуценя. Вам не потрібно показувати йому години відео з добре вихованими собаками. Ви просто даєте йому смаколик, коли воно сидить, і сварите, коли воно жує ваші улюблені черевики.
Хороше, Погане та Відверто Смішне
Хороша новина в тому, що цей підхід, схоже, працює. Отримана політика досягає найкращих результатів у кількох еталонних тестах автономного водіння, навіть перевершуючи системи, навчені на реальних даних водіння людини. Автомобілі також напрочуд надійні, в середньому проїжджаючи 17,5 років безперервного водіння між інцидентами в симуляції.
Погана новина? Ну, якщо автомобілі вчаться водити як ми, значить, вони також переймають наші погані звички. Очікуйте побачити самокеровані автомобілі, що підрізають один одного, здійснюють пасивно-агресивні зміни смуги руху і, можливо, навіть випадки дорожньої люті з боку ШІ.
А відверто смішне? Уявіть майбутнє, де самокеровані автомобілі запрограмовані бути надмірно ввічливими, поступаючись кожному пішоходу і дозволяючи всім вливатися перед ними. Рух зупинився б, коли ці надввічливі автомобілі застрягли б у нескінченних циклах “після вас, ні, після вас”.
Майбутнє (Сподіваємося) Менш Нерівне
Звісно, ще треба пройти довгий шлях. Як зазначають самі дослідники, багато порушень, допущених ШІ під час тестування, були спричинені обмеженнями самих еталонних тестів, наприклад, пішоходами, які вибігають на дорогу, не дивлячись. Але той факт, що самокеровані автомобілі можуть навчитися орієнтуватися в складних, непередбачуваних умовах через самонавчання, є важливим кроком вперед.
Тож наступного разу, коли ви побачите самокерований автомобіль на дорозі, пам’ятайте, що він, ймовірно, пройшов через більше симульованих заторів та небезпечних ситуацій, ніж ви за все своє життя. І якщо він вас підріже, просто пам’ятайте: він, мабуть, просто вчиться у найкращих (або найгірших) з нас.
Примітка редактора: Жоден реальний автомобіль не постраждав під час створення цієї
системи ШІ. Хоча деякі віртуальні точно мали важкий робочий день.