自動運転車の約束:AI同士の「ガチ対決」で実現へ
自動運転車の約束が、長年、目の前でぶら下がる人参のように私たちを翻弄してきました。ロボットの運転手、ストレスフリーな通勤、そしてついに仕事中にクロスワードパズルを完成させる能力が約束されていました。しかし、現実ときたら少々…波乱万丈でした。
しかし、どうやら今は違うようです。ある新しい論文が、驚くほどシンプルなアプローチで話題を呼んでいます。「車に自分たち同士で対戦させて運転を学ばせる」というのです。ええ、聞き間違いではありません。デモリションダービーのようなものですが、アルゴリズム同士で行うのです。
ギガフロー:車たちが教習所へ行く場所(そして大混乱を引き起こす場所)
秘密のスパイスは「ギガフロー」と呼ばれるシステムです。これは、単一の8GPUノード上で1時間に42年分の主観的な運転経験を合成・訓練できるバッチ処理シミュレーターです。想像してみてください。デジタルなサンダードームの中で、自動運転車たちが生まれてきて、基本的なルール(クラッシュしない、目的地に着く)を与えられ、バーチャルな道路で激突させられるのです。彼らは試行錯誤を通じて学び、お互いの…そうですね、「個性的な」運転スタイルに絶えず適応していきます。
豆知識:わずか10日間の訓練で、これらのAI車は16億キロメートル以上を走行しました。
これは地球から土星までの距離を上回ります!まさにロードトリップですね…
その結果、自己対戦(self-play)のみで訓練された単一のポリシーが、CARLA、nuPlan、およびWaymo Open Motion Datasetにおけるこれまでの最高性能を凌駕しました。
「最小限の報酬関数」—あるいは、車に(ある程度)行儀良く振る舞う方法を教える方法
本当に興味深いのはここからです。研究者たちは、AIに何テラバイトもの人間の運転データを餌として与えたわけではありません。代わりに、「最小限の報酬関数」を使用しました。基本的に、車たちが報われるのは以下の行動です。
- 目的地に到達すること
- 衝突を避けること
- 車線を維持すること
- 赤信号を無視しないこと
- 加速を常識的に保つこと
子犬のしつけに似ていると考えてください。しつけの良い犬の動画を何時間も見せる必要はありません。「お座り」をしたらご褒美を与え、「お気に入りの靴を噛んだら」叱る。それだけです。
良い点、悪い点、そして完全に笑える点
良いニュースは、このアプローチが機能しているように見えることです。得られたポリシーは、実世界の人間データで訓練されたシステムを上回り、複数の自動運転ベンチマークで最高水準の性能を達成しています。車たちは驚くほど頑健で、シミュレーション内ではインシデント発生間隔が平均17.5年にもなります。
悪いニュース?まあ、車たちが私たちと同じように運転を学んでいるのなら、それは私たちの悪い癖も学んでいることを意味します。自動運転車同士がお互いの進路を妨害したり、受動的攻撃的な車線変更を行ったり、あるいはAIによる煽り運転が発生する事態を覚悟してください。
そして、完全に笑えるのは?自動運転車が過剰に丁寧になる未来を想像してみてください。歩行者すべてに道を譲り、誰にでも前に出させるのです。すると、これらの超礼儀正しい車たちが「どうぞ、いえ、あなたが先です」という無限ループに陥り、交通は完全に麻痺するでしょう。
未来は(願わくば)波乱が少ない
もちろん、道のりはまだ遠いです。研究者たち自身が指摘するように、AIがテスト中に受けた違反の多くは、歩行者が無謀に飛び出してくるなど、ベンチマーク自体の限界によるものでした。しかし、自動運転車が自己対戦を通じて複雑で予測不可能な環境をナビゲートする方法を学べるという事実は、大きな一歩です。
ですから、次に道路で自動運転車を見かけたら、それがあなたが生涯で経験したシミュレーション上の渋滞やニアミスよりも、はるかに多くのものを経験してきたことを思い出してください。そして、もしその車があなたの前に割り込んできても、思い出してください。それはおそらく、私たちの中で最高(あるいは最悪)のドライバーから学んでいる最中なのですから。
編集者注:このAIシステムの開発において、実際の車両が危害を加えられることはありませんでした。
ただし、いくつかの仮想的な車にとっては、その日はひどい一日の始まりだったに違いありません。