Mașini autonome: În sfârșit învață să conducă ca noi (și asta e puțin înfricoșător)

Hai să fim sinceri: promisiunea mașinilor autonome ne-a fost prezentată ca un morcov în fața nasului de ani de zile. Ni s-au promis șoferi roboți, navete fără stres și posibilitatea de a rezolva în sfârșit integrama în drum spre serviciu. Dar realitatea a fost puțin… accidentată.

Până acum, se pare. O nouă lucrare face valuri cu o abordare surprinzător de simplă: să lăsăm mașinile să învețe să conducă jucându-se unele împotriva altora. Da, ați citit bine. E ca un derby de demolare, dar cu algoritmi.

Gigaflow: Unde Mașinile Merg la Școala de Șoferi (și Provoacă Haos)

Ingredientul secret este un sistem numit “Gigaflow”, un simulator în lot capabil să sintetizeze și să antreneze 42 de ani de experiență subiectivă de condus pe oră, pe un singur nod cu 8 GPU-uri. Imaginați-vă un Thunderdome digital unde mașinile autonome sunt create, li se dă un set de reguli de bază (nu te accidenta, ajunge la destinație) și apoi sunt lăsate să se confrunte pe șosele virtuale. Învață prin încercare și eroare, adaptându-se constant la stilurile de condus… să le spunem “unice” ale celorlalte.

Fapt Distractiv: În doar 10 zile de antrenament, aceste mașini AI au parcurs peste 1,6 miliarde 
de kilometri - mai mult decât distanța de la Pământ la Saturn! Vorbim despre o călătorie serioasă...

Rezultatul? O singură politică antrenată exclusiv prin auto-joc depășește performanțele anterioare de top pe CARLA, nuPlan și setul de date Waymo Open Motion.

“Funcția de Recompensă Minimalistă” – Sau, Cum să Înveți o Mașină să se Comporte (Într-un Fel)

Iată partea cu adevărat interesantă. Cercetătorii nu au hrănit AI-ul cu terabytes de date despre condusul uman. În schimb, au folosit o “funcție de recompensă minimalistă”. Practic, mașinile sunt recompensate pentru:

Ajungerea la destinație
Evitarea coliziunilor
Menținerea pe bandă
Respectarea semafoarelor
Păstrarea unei accelerații rezonabile

E ca și cum ai antrena un cățeluș. Nu trebuie să-i arăți ore întregi de videoclipuri cu câini bine-crescuți. Îi dai doar o recompensă când stă cuminte și îl cerți când îți roade pantofii preferați.

Binele, Răul și Absolut Hilarul

Vestea bună este că această abordare pare să funcționeze. Politica rezultată atinge performanțe de top pe multiple benchmarkuri de conducere autonomă, depășind chiar și sistemele antrenate pe date reale umane. Mașinile sunt și surprinzător de robuste, făcând în medie 17,5 ani de condus continuu între incidente în simulare.

Vestea proastă? Ei bine, dacă mașinile învață să conducă ca noi, asta înseamnă că învață și obiceiurile noastre proaste. Așteptați-vă să vedeți mașini autonome care se taie una pe alta, efectuează schimbări agresiv-pasive de bandă și poate chiar incidente ocazionale de furie în trafic alimentate de AI.

Și partea absolut hilară? Imaginați-vă un viitor în care mașinile autonome sunt programate să fie excesiv de politicoase, cedând fiecărui pieton și lăsând pe toată lumea să se încadreze în față. Traficul s-ar opri complet în timp ce aceste mașini ultra-curtenitoare s-ar angaja în bucle infinite de “după dumneavoastră, nu, după dumneavoastră.”

Viitorul Este (Sperăm) Mai Puțin Accidentat

Desigur, mai este mult de mers. După cum subliniază și cercetătorii, multe dintre încălcările suferite de AI în timpul testării s-au datorat limitărilor benchmarkurilor în sine, cum ar fi pietonii care sar în trafic fără să se uite. Dar faptul că mașinile autonome pot învăța să navigheze medii complexe și imprevizibile prin auto-joc reprezintă un pas major înainte.

Așadar, data viitoare când vezi o mașină autonomă pe șosea, amintește-ți că probabil a trecut prin mai multe ambuteiaje simulate și situații la limită decât ai avut tu în toată viața. Și dacă te taie, ține minte: probabil învață de la cei mai buni (sau cei mai răi) dintre noi.

Notă Editorială: Nicio mașină reală nu a fost rănită în crearea acestui sistem AI.
Deși unele virtuale au avut cu siguranță o zi grea la birou.

Sursa: Robust Autonomy Emerges from Self-Play