自动驾驶汽车:它们终于学会像人类一样开车了(这有点吓人)

让汽车自己玩,学会开车!

大家都知道,自动驾驶汽车的承诺就像胡萝卜一样在我们面前晃了好多年。我们一直期待着机器人司机、无压力通勤,以及终于能在上班路上完成填字游戏。但现实却有点…坎坷。

直到现在,事情似乎有了转机。一篇新论文提出了一个出人意料的简单方法:让汽车通过互相对抗来学习驾驶。没错,你没看错。这就像是算法版的碰碰车大赛。

Gigaflow:汽车的驾校(兼混乱现场)

其中的秘诀是一个名为"Gigaflow"的系统,这是一个批处理模拟器,能在单个8-GPU节点上每小时合成和训练相当于42年的主观驾驶经验。想象一个数字版的"雷霆万钧",自动驾驶汽车在这里诞生,获得基本规则(不要撞车,到达目的地),然后被放出去在虚拟道路上互相较量。它们通过试错不断学习,持续适应彼此的…“独特"驾驶风格。

趣闻:仅仅10天的训练中,这些AI汽车就行驶了超过16亿公里 - 
这比地球到土星的距离还要远!这才叫公路旅行...

结果如何?一个完全通过自我对抗训练出来的策略在CARLA、nuPlan和Waymo开放运动数据集上的表现超过了此前的最优水平。

“极简奖励函数” - 或者说,如何教会汽车规矩(大概吧)

这里最有趣的部分是,研究人员并没有用TB级的人类驾驶数据来喂养AI。相反,他们使用了一个"极简奖励函数”。基本上,汽车会因以下行为获得奖励:

  • 到达目的地
  • 避免碰撞
  • 保持在车道内
  • 不闯红灯
  • 保持合理的加速度

这就像训练小狗。你不需要给它看几个小时表现良好的狗狗视频。你只需要在它坐下时给它零食,在它啃你最喜欢的鞋子时训斥它。

好消息、坏消息和特别好笑的消息

好消息是这种方法似乎很有效。最终的策略在多个自动驾驶基准测试中都达到了最优水平,甚至超过了用真实人类数据训练的系统。这些汽车也出奇地稳定,在模拟环境中平均能连续驾驶17.5年才会出现事故。

坏消息呢?如果汽车是在向我们学习开车,那就意味着它们也学到了我们的坏习惯。以后可能会看到自动驾驶汽车互相抢道、消极对抗地并线,甚至可能出现AI版的路怒事件。

最好笑的是什么?想象一个未来,自动驾驶汽车被编程得过分礼貌,对每个行人都让路,让所有车辆都插到自己前面。当这些超级有礼貌的汽车陷入无休止的"您先请,不不,您先"的循环时,交通就会完全瘫痪。

未来(希望)不那么颠簸

当然,还有很长的路要走。正如研究人员指出的,AI在测试中出现的许多违规行为都是由于基准测试本身的局限性造成的,比如行人不看路就冲进车流。但自动驾驶汽车能够通过自我对抗学会在复杂且不可预测的环境中导航,这已经是一个重大进步。

所以,下次当你在路上看到自动驾驶汽车时,请记住它可能经历过比你一生中还要多的模拟交通堵塞和险些相撞的情况。如果它抢了你的道,别忘了:它可能只是在向我们这些最好(或最差)的司机学习。

编者注:在开发这个AI系统的过程中没有真车受伤。
不过有些虚拟汽车确实度过了艰难的一天。

来源: Robust Autonomy Emerges from Self-Play