動機、機会、課題
N. ケマル・ウレ博士 - イートロン・テクノロジーズ社AI担当ディレクター

第2部:動機と機会

強化学習(RL)に関する本シリーズの第1回では、RLの概要と、それが人工知能(AI)の最も人気のあるサブ分野の1つとして有名になった経緯について紹介しました。今回は、RLを自律走行に応用する動機と可能性について説明します。

1.ノイズ環境下での制御・意思決定

制御システムの設計における主な課題の1つは、モデルのダイナミクスの不確実性と外乱を扱うことである。古典的な設計手法は、センサノイズやシステムダイナミクスのパラメトリックな不確かさなど、信号レベルで構造化された不確かさの取り扱いに適している。一方、周囲の交通の挙動などの非構造的な不確実性を扱うことは、これらの手法の対象外である。このため、周辺交通のダイナミクスを極端に単純化した保守的な設計になってしまい、安全ではあるが性能の低い自律走行システムができあがってしまう。一方、RLはモデルの構造を仮定しないので、より多くのデータを観測するだけで、交通のナビゲーション方法を学習することができる。モデルの仮定がないため、高密度な交通渋滞、交通事故の処理、複雑な道路レイアウトやルールセットを持つ都市環境でのナビゲーションなど、より複雑な交通シナリオに対応することができる。

2.ヒューリスティック、親指の法則、ドメインナレッジを超えて

ほとんどすべての意思決定タスクは、ルールとヒューリスティックによってアプローチすることができる。例えば、自律走行車の車線変更判断は、問題を明確な交通シナリオに分割し、専門家の知識を用いて各シナリオを判断に対応付けることで自動化することが可能である。この方法は、アルゴリズム設計やデータ処理が最小限で済むため、安価であることから産業界で普及しています。一方、このようなルール駆動型アプローチの性能は、そのようなシステムの設計に関わる経験の質と深さによって厳密に制限されます。また、ルールでカバーできないエッジケースや、シナリオの解像度が低いために最適でない判断が常に存在します。一方、RLアプローチでは、取り組むべき問題についてハードコードされた仮定がないため、これらの制限に悩まされることはない。実世界から、あるいはシミュレータと連携してデータを収集する代償として、RLは解とシナリオの空間の大部分を探索し、通常、ルール駆動型システムに対して大きな優位性を持つシステムを実現する。

3.問題動態の変化への適応性

問題の力学やパラメータは、時間やタスクによって変化することがよくあります。例えば、世界のある特定の地域の交通ルールや力学は、私たちの以前の経験とは一致しないかもしれません。このような新しいタスクに既存の意思決定システムを適応させるには、通常、かなりの量のエンジニアリングと手作業が必要です。しかし、RLには問題に対する前提がないため、このような変化にも対応することができる。事前に訓練されたRLエージェントを新しいタスクで訓練することで、エージェントは新しいダイナミクスに合わせて行動を更新し、新しい環境での訓練経験が十分にあれば、新しい環境での課題に取り組むために行動をスムーズに変更することができるようになる。

つまり、RLは重要な意思決定タスクの自動化に対して、データによる拡張性、変化への適応性、ルールベースの基本的なソリューションに勝る可能性を持つソリューションを提供しているのです。本シリーズの第3回では、RLを現実の自律走行シナリオに適用する際の課題について見ていきます。