Samořídící auta: Konečně se učí řídit jako my (a je to trochu děsivé)

Podívejme se pravdě do očí: příslib samořídících aut se před námi houpe jako mrkev na provázku už roky. Slibovali nám robotické šoféry, dojíždění bez stresu a konečně možnost dokončit křížovku cestou do práce. Realita však byla trochu… hrbolatá.

Až dosud, zdá se. Nová studie způsobuje rozruch překvapivě jednoduchým přístupem: nechat auta učit se řídit vzájemným soupeřením. Ano, čtete správně. Je to jako demoliční derby, ale s algoritmy.

Gigaflow: Kde auta chodí do autoškoly (a způsobují chaos)

Tajnou ingrediencí je systém nazvaný “Gigaflow”, dávkový simulátor schopný syntetizovat a trénovat 42 let subjektivních řidičských zkušeností za hodinu na jediném uzlu s 8 GPU. Představte si digitální Thunderdome, kde jsou samořídící auta uvedena do existence, dostanou základní pravidla (nehavarovat, dojet do cíle) a pak jsou vypuštěna, aby to mezi sebou rozehrála na virtuálních silnicích. Učí se metodou pokus-omyl a neustále se přizpůsobují… řekněme “jedinečným” řidičským stylům ostatních.

Zajímavost: Za pouhých 10 dní tréninku tato AI auta najela přes 1,6 miliardy kilometrů - 
to je více než vzdálenost ze Země na Saturn! To je tedy road trip...

Výsledek? Jediná strategie vytrénovaná čistě prostřednictvím hry proti sobě překonává dosavadní špičkové výkony na datasetech CARLA, nuPlan a Waymo Open Motion.

“Minimalistická odměňovací funkce” – aneb jak naučit auto slušnému chování (tak nějak)

Zde přichází opravdu zajímavá část. Výzkumníci nekrmili AI terabyty dat o lidském řízení. Místo toho použili “minimalistickou odměňovací funkci”. V podstatě jsou auta odměňována za:

  • Dosažení cíle
  • Vyhýbání se kolizím
  • Udržování se v pruhu
  • Neprojetí červené
  • Udržování rozumného zrychlení

Je to jako výcvik štěněte. Nepotřebujete mu ukazovat hodiny videí dobře vychovaných psů. Stačí mu dát pamlsek, když sedí, a pokárat ho, když žvýká vaše oblíbené boty.

Dobré, špatné a vyloženě vtipné

Dobrá zpráva je, že tento přístup zřejmě funguje. Výsledná strategie dosahuje špičkových výsledků v několika měřítcích autonomního řízení a dokonce překonává systémy trénované na reálných lidských datech. Auta jsou také překvapivě odolná - v simulaci průměrně ujedou 17,5 roku nepřetržité jízdy mezi incidenty.

Špatná zpráva? No, pokud se auta učí řídit jako my, znamená to, že se učí i naše zlozvyky. Očekávejte, že samořídící auta se budou navzájem vytlačovat, agresivně-pasivně se zařazovat a možná dojde i na občasný incident s AI road rage.

A to vyloženě vtipné? Představte si budoucnost, kde jsou samořídící auta naprogramována být přehnaně zdvořilá, dávat přednost každému chodci a pouštět před sebe všechna auta. Doprava by se zastavila, když by se tato hyper-zdvořilá auta dostala do nekonečné smyčky “až po vás, ne, až po vás.”

Budoucnost je (snad) méně hrbolatá

Samozřejmě je před námi ještě dlouhá cesta. Jak sami výzkumníci poznamenávají, mnoho přestupků AI během testování bylo způsobeno omezeními samotných testovacích měřítek, jako například chodci vrhající se do provozu bez rozhlédnutí. Ale skutečnost, že se samořídící auta mohou naučit navigovat v komplexních, nepředvídatelných prostředích pomocí hry proti sobě, je významným krokem vpřed.

Takže příště, když uvidíte samořídící auto na silnici, vzpomeňte si, že pravděpodobně prošlo více simulovanými dopravními zácpami a téměř nehodami než vy za celý život. A pokud vás vytlačí, pamatujte: pravděpodobně se jen učí od těch nejlepších (nebo nejhorších) z nás.

Poznámka redakce: Při vývoji tohoto AI systému nebyla poškozena žádná skutečná auta. 
I když některá virtuální určitě zažila v práci perný den.

Zdroj: Robust Autonomy Emerges from Self-Play