Zelfrijdende auto's: Ze leren eindelijk rijden zoals wij (en dat is een beetje eng)

De Geniale Doorbraak in Zelfrijdende Auto’s: Leren Door Virtuele Chaos

Laten we eerlijk zijn: de belofte van zelfrijdende auto’s bungelt al jaren voor onze neus als een wortel aan een stok. Er werden robotchauffeurs beloofd, stressvrije woon-werkverkeer, en de mogelijkheid om eindelijk die kruiswoordpuzzel af te maken tijdens je rit naar kantoor. Maar de realiteit was tot nu toe… hobbelig.

Tot nu, zo lijkt het. Een nieuw onderzoek maakt furore met een verrassend eenvoudige aanpak: laat auto’s leren rijden door tegen elkaar te spelen. Ja, je leest het goed. Het is als een demolition derby, maar dan met algoritmes.

Gigaflow: Waar Auto’s naar Rijschool Gaan (en Chaos Veroorzaken)

Het geheime ingrediënt is een systeem genaamd “Gigaflow”, een gebundelde simulator die in staat is om 42 jaar aan subjectieve rijervaring per uur te synthetiseren en te trainen op slechts één 8-GPU node. Stel je een digitale Thunderdome voor waar zelfrijdende auto’s tot leven worden gewekt, een basale set regels krijgen (niet crashen, kom op je bestemming), en vervolgens losgelaten worden om het uit te vechten op virtuele wegen. Ze leren door trial-and-error, en passen zich voortdurend aan aan elkaars… laten we zeggen “unieke” rijstijlen.

Leuk weetje: In slechts 10 dagen training reden deze AI-auto's meer dan 1,6 miljard kilometer - 
dat is verder dan de afstand van de Aarde naar Saturnus! Noem dat nog eens een roadtrip...

Het resultaat? Een enkel beleid, volledig getraind via zelfspel, overtreft alle voorgaande state-of-the-art prestaties op CARLA, nuPlan en de Waymo Open Motion Dataset.

De “Minimalistische Beloningsfunctie” – Of: Hoe Leer Je een Auto Zich (Enigszins) te Gedragen

Hier komt het echt interessante deel. De onderzoekers voerden de AI niet met terabytes aan menselijke rijgegevens. In plaats daarvan gebruikten ze een “minimalistische beloningsfunctie”. In essentie worden de auto’s beloond voor:

  • Het bereiken van hun bestemming
  • Het vermijden van botsingen
  • In hun rijstrook blijven
  • Niet door rood rijden
  • Redelijke acceleratie houden

Zie het als het trainen van een puppy. Je hoeft hem geen uren video’s van brave honden te laten zien. Je geeft hem gewoon een beloning wanneer hij zit en berispt hem wanneer hij op je favoriete schoenen kauwt.

Het Goede, het Slechte en het Ronduit Hilarische

Het goede nieuws is dat deze aanpak lijkt te werken. Het resulterende beleid bereikt state-of-the-art prestaties op meerdere benchmarks voor autonoom rijden, en overtreft zelfs systemen die getraind zijn met real-world menselijke data. De auto’s zijn ook verrassend robuust, met gemiddeld 17,5 jaar onafgebroken rijden tussen incidenten in simulatie.

Het slechte nieuws? Als de auto’s leren rijden zoals wij, betekent dit dat ze ook onze slechte gewoonten overnemen. Verwacht zelfrijdende auto’s die elkaar afsnijden, passief-agressief invoegen, en misschien zelfs de occasionele AI-aangedreven wegwoede-incidenten.

En het ronduit hilarische? Stel je een toekomst voor waarin zelfrijdende auto’s geprogrammeerd zijn om overdreven beleefd te zijn, wijkend voor elke voetganger en iedereen voor zich latend invoegen. Het verkeer zou vastlopen terwijl deze hyperbeleefd auto’s in eindeloze lussen van “na u, nee, na u” verwikkeld raken.

De Toekomst is (Hopelijk) Minder Hobbelig

Natuurlijk is er nog een lange weg te gaan. Zoals de onderzoekers zelf aangeven, waren veel van de overtredingen die de AI tijdens het testen maakte te wijten aan beperkingen van de benchmarks zelf, zoals voetgangers die zonder te kijken de weg op schieten. Maar het feit dat zelfrijdende auto’s kunnen leren navigeren in complexe, onvoorspelbare omgevingen door zelfspel is een belangrijke stap voorwaarts.

Dus, de volgende keer dat je een zelfrijdende auto op de weg ziet, bedenk dan dat deze waarschijnlijk meer gesimuleerde files en bijna-ongelukken heeft meegemaakt dan jij in je hele leven. En als hij je afsnijdt, bedenk dan: hij leert waarschijnlijk gewoon van de beste (of slechtste) onder ons.

Redactionele noot: Geen echte auto's zijn beschadigd tijdens het maken van dit AI-systeem. 
Hoewel sommige virtuele exemplaren zeker een zware dag op kantoor hadden.

Bron: Robust Autonomy Emerges from Self-Play