arXiv 論文「深層強化学習を使用した現実世界の自動運転への取り組み」、2022 年 7 月 5 日にアップロードされました。著者はイタリアのパルマ大学の Vislab および Ambarella (Vislab の買収) の出身です。
典型的な自動運転組立ラインでは、制御システムは 2 つの最も重要なコンポーネントを表し、センサーによって取得されたデータと認識アルゴリズムによって処理されたデータが安全性を実現するために使用されます。快適な自動運転動作。特に、計画モジュールは、適切な高レベルのアクションを実行するために自動運転車がたどるべき経路を予測し、制御システムはステアリング、スロットル、ブレーキを制御する一連の低レベルのアクションを実行します。
この研究では、モデルフリーの 深層強化学習 (DRL) プランナーを提案し、ニューラル ネットワークをトレーニングして加速度およびステアリング角度を予測し、それによって車の位置およびステアリング角度によって駆動される自律的なデータを取得します。認識アルゴリズムは、車両の個々のモジュールによって駆動されるデータを出力します。特に、完全にシミュレーションおよびトレーニングされたシステムは、シミュレーション環境および現実 (パルマ市エリア) のバリアフリー環境でスムーズかつ安全に走行でき、システムが優れた汎用化機能を備えており、トレーニング シナリオ以外の環境でも走行できることが証明されています。さらに、システムを実際の自動運転車に導入し、シミュレーションされたパフォーマンスと実際のパフォーマンスとのギャップを減らすために、著者らは、シミュレーショントレーニング中に実際の環境の動作を再現できる小型ニューラルネットワークで表されるモジュールも開発しました。 . 車の動的挙動。
過去数十年にわたり、シンプルなルールベースのアプローチから AI ベースのインテリジェント システムの実装に至るまで、車両自動化のレベル向上において大きな進歩が見られました。特に、これらのシステムは、ルールベースのアプローチの主な制限、つまり他の道路利用者との交渉や対話の欠如、およびシーンのダイナミクスの理解が不十分であることに対処することを目的としています。
強化学習 (RL) は、囲碁、Atari ゲーム、チェスなどの離散制御空間の出力を使用するタスクや、連続制御空間での自動運転を解決するために広く使用されています。特に、RL アルゴリズムは、自動運転の分野で、アクティブな車線変更、車線維持、追い越し操作、交差点、環状交差点の処理などの意思決定および操作実行システムを開発するために広く使用されています。
この記事では、いわゆる Actor-Critics アルゴリズム ファミリに属する D-A3C の遅延バージョンを使用します。具体的には、俳優と批評家の 2 つの異なるエンティティで構成されます。アクターの目的は、エージェントが実行する必要があるアクションを選択することですが、クリティックは状態値関数、つまりエージェントの特定の状態がどの程度良好であるかを推定することです。言い換えると、アクターはアクション全体の確率分布 π(a|s; θπ) (θ はネットワーク パラメーター) であり、クリティカルは推定状態値関数 v(st; θv) = E(Rt|st) であり、R は期待される収益。
社内で開発された高精細マップはシミュレーション シミュレーターを実装しており、そのシーンの例を図 a に示します。これは実際の自動運転車テスト システムの一部のマップ領域であり、図 B は実際の自動運転車テスト システムの一部のマップ領域です。エージェントが認識する周囲の景色を示します。50 × 50 メートルのエリアに対応し、障害物 (図 c)、走行可能スペース (図 d)、エージェントがたどるべき経路 (図e) と停止線 (図 f)。シミュレーターの高解像度地図では、位置や車線数、道路制限速度など、外部環境に関する複数の情報を取得できます。
スムーズで安全な運転スタイルの実現に重点を置くことで、エージェントは静的シナリオでトレーニングされ、障害物や他の道路利用者を排除し、ルートに従い、制限速度を遵守することを学習します。
図に示すようにニューラル ネットワークを使用してエージェントをトレーニングし、100 ミリ秒ごとのステアリング角度と加速度を予測します。これは 2 つのサブモジュールに分割されています。最初のサブモジュールはステアリング角 sa を定義でき、2 番目のサブモジュールは加速度 acc を定義するために使用されます。これら 2 つのサブモジュールへの入力は、エージェントの周囲のビューに対応する 4 つのチャネル (走行可能スペース、経路、障害物、停止線) で表されます。各視覚入力チャネルには、エージェントに過去の状態の履歴を提供する 4 つの 84 × 84 ピクセル画像が含まれています。この視覚入力とともに、ネットワークは、目標速度 (道路制限速度)、エージェントの現在速度、現在の速度と目標速度の比、ステアリング角度と加速度に関連する最終アクションを含む 5 つのスカラー パラメーターを受け取ります。
探索を確実にするために、2 つのガウス分布を使用して 2 つのサブモジュールの出力をサンプリングし、相対加速度 (acc=N (μacc, σacc)) を取得します。 ) とステアリング角度 (sa=N(μsa,σsa))。標準偏差 σacc と σsa は、トレーニング段階でニューラル ネットワークによって予測および調整され、モデルの不確実性が推定されます。さらに、ネットワークは、それぞれ加速度およびステアリング角度に関連する 2 つの異なる報酬関数 R-acc-t および R-sa-t を使用して、対応する状態値推定値 (vacc および vsa) を生成します。
ニューラル ネットワークは、パルマ市の 4 つのシーンでトレーニングされました。シナリオごとに複数のインスタンスが作成され、エージェントはこれらのインスタンス上で互いに独立しています。各エージェントは、ステアリング角 [-0.2, 0.2] と加速度 [-2.0 m, 2.0 m] の運動学的自転車モデルに従います。セグメントの開始時に、各エージェントはランダムな速度 ([0.0, 8.0]) で運転を開始し、道路制限速度を遵守して意図した経路をたどります。この市街地の道路制限速度は 4 ミリ秒から 8.3 ミリ秒です。
最後に、トレーニング シーンには障害物がないため、クリップは次のいずれかの最終状態で終了する可能性があります:
シミュレーション環境と実際の環境で車をうまく運転できる戦略を取得するには、望ましい動作を達成するために報酬の形成が重要です。特に、2 つの異なる報酬関数が 2 つのアクションをそれぞれ評価するために定義されています。R-acc-t と R-sa-t はそれぞれ加速度およびステアリング角度に関連しており、次のように定義されます:
where
R-sa-t と R-acc-t の両方に、ペナルティの式に要素があります。加速度および操舵角の差がそれぞれ特定のしきい値 δacc および δsa より大きい 2 つの連続したアクション。特に、2 つの連続する加速度の差は次のように計算されます: Δacc=| acc (t) − acc (t− 1) | 、一方、rac_indecion は次のように定義されます:
対照的に、ステアリング角の 2 つの連続した予測間の差は、Δsa=| sa(t) − sa(t− 1)| として計算され、一方、rsa_indecion は次のように定義されます:
最後に、R-acc-t と R-sa-t は、エージェントが達成した最終状態に依存します。
シミュレータに関連する主な問題の 1 つは、シミュレートされたデータと実際のデータの違いです。これは、シミュレータ内で現実世界の条件を正確に再現することが難しいために発生します。この問題を解決するには、合成シミュレーターを使用してニューラル ネットワークへの入力を簡素化し、シミュレートされたデータと実際のデータの間のギャップを減らします。実際、ニューラル ネットワークへの入力として 4 つのチャネル (障害物、走行空間、経路、停止線) に含まれる情報は、実際の自動運転車に埋め込まれた知覚および位置特定アルゴリズムと高解像度マップによって簡単に再現できます。
さらに、シミュレーターの使用に関連するもう 1 つの問題は、シミュレートされたエージェントがターゲット アクションを実行する方法と自動運転車がコマンドを実行する 2 つの方法の違いに関係しています。実際、時間 t で計算されたターゲット アクションは、理想的には、シミュレーション内の正確な瞬間に即座に有効になります。違いは、これが実際の車両では起こらないことです。現実には、そのようなターゲット アクションは何らかのダイナミクスを伴って実行され、実行遅延 (t δ) が生じるからです。したがって、そのような遅延に対処するために実際の自動運転車でエージェントを訓練するには、シミュレーションにそのような応答時間を導入する必要があります。
この目的を達成するために、より現実的な動作を実現するために、エージェントはまず、エージェントが実行する必要があるターゲット アクションを予測したニューラル ネットワークにローパス フィルターを追加するようにトレーニングされます。図に示すように、青い曲線は、ターゲット アクション (この例ではステアリング角度) を使用したシミュレーションで発生する理想的な瞬間応答時間を表しています。次に、ローパス フィルターを導入した後、緑色の曲線はシミュレートされたエージェントの応答時間を示します。対照的に、オレンジ色の曲線は、同じステアリング操作を実行する自動運転車の動作を示しています。ただし、この図から、シミュレートされた車両と実際の車両の間の応答時間の違いが依然として関係していることがわかります。
実際には、ニューラル ネットワークによって事前に設定された加速度およびステアリング角度のポイントは実行可能なコマンドではなく、システムの慣性、アクチュエーターの遅延、その他の非理想的な要因などのいくつかの要因が考慮されていません。そこで、実際の車両のダイナミクスをできるだけリアルに再現するために、全結合 3 層(ディープレスポンス)からなる小規模なニューラルネットワークで構成されるモデルを開発しました。深度応答挙動のグラフは、上の図の赤い破線で示されており、実際の自動運転車を表すオレンジ色の曲線に非常に似ていることがわかります。トレーニング シーンに障害物や交通車両がないことを考えると、説明した問題はステアリング角度アクティビティでより顕著になりますが、同じ考え方が加速出力にも適用されます。
自動運転車で収集されたデータセットを使用してディープ レスポンス モデルをトレーニングします。入力は人間のドライバーが車両に与えるコマンド (アクセル圧力とステアリング ホイールの回転) に対応し、出力は以下に対応します。車両のスロットル、ブレーキ、曲がりは、GPS、走行距離計、またはその他のテクノロジーを使用して測定できます。このように、そのようなモデルをシミュレーターに埋め込むと、自動運転車の動作を再現する、よりスケーラブルなシステムが実現します。したがって、深さ応答モジュールはステアリング角の修正に不可欠ですが、あまり目立たない形であっても加速のために必要であり、これは障害物の導入により明確に認識されます。
システムに対するディープ レスポンス モデルの影響を検証するために、2 つの異なる戦略が実際のデータでテストされました。次に、車両が経路を正しくたどっており、HD マップから得られた制限速度を遵守していることを確認します。最後に、模倣学習を通じてニューラル ネットワークを事前トレーニングすると、総トレーニング時間を大幅に短縮できることが証明されました。
戦略は次のとおりです。
シミュレーションで実行されたテストでは、両方の戦略で良好な結果が得られました。実際、トレーニングされたシーンでも、トレーニングされていないマップ エリアでも、エージェントは 100% の確率でスムーズかつ安全な動作で目標を達成できます。
実際のシナリオで戦略をテストすると、異なる結果が得られました。戦略 1 は車両のダイナミクスを処理できず、シミュレーション内のエージェントとは異なる方法で予測されたアクションを実行します。このようにして、戦略 1 は予測の予期せぬ状態を観察し、自動運転車での騒々しい動作や不快な動作につながります。
この動作はシステムの信頼性にも影響し、実際、自動運転車が道路から逸脱するのを避けるために人間の支援が必要になる場合があります。
対照的に、戦略 2 では、自動運転車の実世界のすべてのテストにおいて、車両のダイナミクスとシステムが動作を予測するためにどのように進化するかを把握している人間が引き継ぐ必要はありません。人間の介入が必要な唯一の状況は、他の道路利用者を避けることですが、戦略 1 と 2 の両方がバリアフリー シナリオで訓練されているため、これらの状況は失敗とはみなされません。
戦略 1 と戦略 2 の違いをよりよく理解するために、実際のテストの短いウィンドウ内でニューラル ネットワークによって予測されたステアリング角度と中央車線までの距離を次に示します。 2 つの戦略は完全に異なる動作をすることがわかります。戦略 1 (青い曲線) は戦略 2 (赤い曲線) に比べてノイズが多く安全ではありません。これは、真の自動運転車への展開にはディープ レスポンス モジュールが重要であることを証明しています。戦略は非常に重要です。 。
最適なソリューションに到達するために数百万のセグメントが必要となる RL の制限を克服するために、模倣学習 (IL) を通じて事前トレーニングが実行されます。さらに、IL のトレンドは大規模なモデルをトレーニングすることですが、RL フレームワークを使用してシステムのトレーニングを継続し、より堅牢性と汎化機能を確保するという考え方のため、同じ小規模なニューラル ネットワーク (約 100 万のパラメーター) が使用されます。こうすることで、ハードウェア リソースの使用量が増加することがなくなります。これは、将来のマルチエージェント トレーニングの可能性を考慮すると非常に重要です。
IL トレーニング フェーズで使用されるデータ セットは、動作に対するルールベースのアプローチに従うシミュレートされたエージェントによって生成されます。特に、曲げの場合、純粋な追跡追跡アルゴリズムが使用され、エージェントは特定のウェイポイントに沿って移動することを目指します。代わりに、IDM モデルを使用してエージェントの縦方向の加速を制御します。
データセットを作成するために、ルールベースのエージェントが 4 つのトレーニング シーンにわたって移動され、100 ミリ秒ごとにスカラー パラメーターと 4 つの視覚入力が保存されました。代わりに、出力は純粋追跡アルゴリズムと IDM モデルによって提供されます。
出力に対応する 2 つの水平および垂直コントロールは、タプル (μacc、μsa) のみを表します。したがって、IL トレーニング フェーズでは、標準偏差 (σacc、σsa) の値は推定されず、値関数 (vacc、vsa) も推定されません。これらの機能と深度応答モジュールは、IL RL トレーニング フェーズで学習されます。
図に示すように、同じニューラル ネットワークのトレーニングを事前トレーニング段階 (青い曲線、IL RL) から開始し、その結果を RL (赤い曲線、純粋な RL) と比較しています。 4つのケース。 IL RL トレーニングに必要な回数は純粋な RL よりも少なく、傾向はより安定していますが、どちらの方法でも良好な成功率を達成しています (図 a)。
さらに、図 b に示されている報酬曲線は、純粋な RL 手法を使用して取得されたポリシー (赤い曲線) は、トレーニング時間を長くしても許容可能な解決策にさえ到達しないことを証明していますが、IL RLポリシーは、いくつかのセグメント内で最適解に到達します (パネル b の青い曲線)。この場合、最適解はオレンジ色の破線で表されます。このベースラインは、4 つのシナリオにわたって 50,000 セグメントを実行するシミュレートされたエージェントによって得られる平均報酬を表します。シミュレートされたエージェントは、IL 事前トレーニング データ セットの収集に使用されたものと同じ決定論的ルールに従います。つまり、曲げには純粋追跡ルールが使用され、縦方向の加速には IDM ルールが使用されます。 2 つのアプローチ間のギャップはさらに顕著になる可能性があり、知能と身体の相互作用が必要となる場合がある、より複雑な操作を実行するシステムを訓練する必要があります。
以上が深層強化学習が現実世界の自動運転に取り組むの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。