深層強化学習が現実世界の自動運転に取り組む-AI-php.cn

ホームページ

テクノロジー周辺機器

深層強化学習が現実世界の自動運転に取り組む

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 am 11:01 AM

強化学習オートパイロット

arXiv 論文「深層強化学習を使用した現実世界の自動運転への取り組み」、2022 年 7 月 5 日にアップロードされました。著者はイタリアのパルマ大学の Vislab および Ambarella (Vislab の買収) の出身です。

深層強化学習が現実世界の自動運転に取り組む

典型的な自動運転組立ラインでは、制御システムは 2 つの最も重要なコンポーネントを表し、センサーによって取得されたデータと認識アルゴリズムによって処理されたデータが安全性を実現するために使用されます。快適な自動運転動作。特に、計画モジュールは、適切な高レベルのアクションを実行するために自動運転車がたどるべき経路を予測し、制御システムはステアリング、スロットル、ブレーキを制御する一連の低レベルのアクションを実行します。

この研究では、モデルフリーの 深層強化学習 (DRL) プランナーを提案し、ニューラルネットワークをトレーニングして加速度およびステアリング角度を予測し、それによって車の位置およびステアリング角度によって駆動される自律的なデータを取得します。認識アルゴリズムは、車両の個々のモジュールによって駆動されるデータを出力します。特に、完全にシミュレーションおよびトレーニングされたシステムは、シミュレーション環境および現実 (パルマ市エリア) のバリアフリー環境でスムーズかつ安全に走行でき、システムが優れた汎用化機能を備えており、トレーニングシナリオ以外の環境でも走行できることが証明されています。さらに、システムを実際の自動運転車に導入し、シミュレーションされたパフォーマンスと実際のパフォーマンスとのギャップを減らすために、著者らは、シミュレーショントレーニング中に実際の環境の動作を再現できる小型ニューラルネットワークで表されるモジュールも開発しました。 . 車の動的挙動。

過去数十年にわたり、シンプルなルールベースのアプローチから AI ベースのインテリジェントシステムの実装に至るまで、車両自動化のレベル向上において大きな進歩が見られました。特に、これらのシステムは、ルールベースのアプローチの主な制限、つまり他の道路利用者との交渉や対話の欠如、およびシーンのダイナミクスの理解が不十分であることに対処することを目的としています。

強化学習 (RL) は、囲碁、Atari ゲーム、チェスなどの離散制御空間の出力を使用するタスクや、連続制御空間での自動運転を解決するために広く使用されています。特に、RL アルゴリズムは、自動運転の分野で、アクティブな車線変更、車線維持、追い越し操作、交差点、環状交差点の処理などの意思決定および操作実行システムを開発するために広く使用されています。

この記事では、いわゆる Actor-Critics アルゴリズムファミリに属する D-A3C の遅延バージョンを使用します。具体的には、俳優と批評家の 2 つの異なるエンティティで構成されます。アクターの目的は、エージェントが実行する必要があるアクションを選択することですが、クリティックは状態値関数、つまりエージェントの特定の状態がどの程度良好であるかを推定することです。言い換えると、アクターはアクション全体の確率分布 π(a|s; θπ) (θ はネットワークパラメーター) であり、クリティカルは推定状態値関数 v(st; θv) = E(Rt|st) であり、R は期待される収益。

社内で開発された高精細マップはシミュレーションシミュレーターを実装しており、そのシーンの例を図 a に示します。これは実際の自動運転車テストシステムの一部のマップ領域であり、図 B は実際の自動運転車テストシステムの一部のマップ領域です。エージェントが認識する周囲の景色を示します。50 × 50 メートルのエリアに対応し、障害物 (図 c)、走行可能スペース (図 d)、エージェントがたどるべき経路 (図e) と停止線 (図 f)。シミュレーターの高解像度地図では、位置や車線数、道路制限速度など、外部環境に関する複数の情報を取得できます。

深層強化学習が現実世界の自動運転に取り組む

スムーズで安全な運転スタイルの実現に重点を置くことで、エージェントは静的シナリオでトレーニングされ、障害物や他の道路利用者を排除し、ルートに従い、制限速度を遵守することを学習します。

図に示すようにニューラルネットワークを使用してエージェントをトレーニングし、100 ミリ秒ごとのステアリング角度と加速度を予測します。これは 2 つのサブモジュールに分割されています。最初のサブモジュールはステアリング角 sa を定義でき、2 番目のサブモジュールは加速度 acc を定義するために使用されます。これら 2 つのサブモジュールへの入力は、エージェントの周囲のビューに対応する 4 つのチャネル (走行可能スペース、経路、障害物、停止線) で表されます。各視覚入力チャネルには、エージェントに過去の状態の履歴を提供する 4 つの 84 × 84 ピクセル画像が含まれています。この視覚入力とともに、ネットワークは、目標速度 (道路制限速度)、エージェントの現在速度、現在の速度と目標速度の比、ステアリング角度と加速度に関連する最終アクションを含む 5 つのスカラーパラメーターを受け取ります。

深層強化学習が現実世界の自動運転に取り組む

探索を確実にするために、2 つのガウス分布を使用して 2 つのサブモジュールの出力をサンプリングし、相対加速度 (acc=N (μacc, σacc)) を取得します。 ) とステアリング角度 (sa=N(μsa,σsa))。標準偏差 σacc と σsa は、トレーニング段階でニューラルネットワークによって予測および調整され、モデルの不確実性が推定されます。さらに、ネットワークは、それぞれ加速度およびステアリング角度に関連する 2 つの異なる報酬関数 R-acc-t および R-sa-t を使用して、対応する状態値推定値 (vacc および vsa) を生成します。

ニューラルネットワークは、パルマ市の 4 つのシーンでトレーニングされました。シナリオごとに複数のインスタンスが作成され、エージェントはこれらのインスタンス上で互いに独立しています。各エージェントは、ステアリング角 [-0.2, 0.2] と加速度 [-2.0 m, 2.0 m] の運動学的自転車モデルに従います。セグメントの開始時に、各エージェントはランダムな速度 ([0.0, 8.0]) で運転を開始し、道路制限速度を遵守して意図した経路をたどります。この市街地の道路制限速度は 4 ミリ秒から 8.3 ミリ秒です。

最後に、トレーニングシーンには障害物がないため、クリップは次のいずれかの最終状態で終了する可能性があります:

目標の達成:インテリジェンスは最終目標位置に到達します。
道路外運転: エージェントが意図した経路を逸脱し、ステアリング角度を誤って予測します。
時間切れ: フラグメントを完了する時間が経過しました。これは主に、道路制限速度未満で走行中の加速出力を慎重に予測したためです。

シミュレーション環境と実際の環境で車をうまく運転できる戦略を取得するには、望ましい動作を達成するために報酬の形成が重要です。特に、2 つの異なる報酬関数が 2 つのアクションをそれぞれ評価するために定義されています。R-acc-t と R-sa-t はそれぞれ加速度およびステアリング角度に関連しており、次のように定義されます:

深層強化学習が現実世界の自動運転に取り組む

where

深層強化学習が現実世界の自動運転に取り組む

R-sa-t と R-acc-t の両方に、ペナルティの式に要素があります。加速度および操舵角の差がそれぞれ特定のしきい値 δacc および δsa より大きい 2 つの連続したアクション。特に、2 つの連続する加速度の差は次のように計算されます: Δacc=| acc (t) − acc (t− 1) | 、一方、rac_indecion は次のように定義されます:

深層強化学習が現実世界の自動運転に取り組む

対照的に、ステアリング角の 2 つの連続した予測間の差は、Δsa=| sa(t) − sa(t− 1)| として計算され、一方、rsa_indecion は次のように定義されます:

深層強化学習が現実世界の自動運転に取り組む

最後に、R-acc-t と R-sa-t は、エージェントが達成した最終状態に依存します。

目標達成: エージェントが目標位置に到達したため、2 つの報酬が得られます。 rterminal は 1.0 に設定されています;
DRIVE OFF ROAD: エージェントは、主にステアリング角度の不正確な予測が原因で、その経路から逸脱します。したがって、負の信号 -1.0 を Rsa,t に割り当て、負の信号 0.0 を R-acc-t に割り当てます。
Time is up: 主にエージェントの加速予測が原因で、セグメントを完了するために使用できる時間が期限切れになります。あまりにも注意してください; したがって、rterminal は R-acc-t に -1.0、R-sa-t に 0.0 を仮定します。

シミュレータに関連する主な問題の 1 つは、シミュレートされたデータと実際のデータの違いです。これは、シミュレータ内で現実世界の条件を正確に再現することが難しいために発生します。この問題を解決するには、合成シミュレーターを使用してニューラルネットワークへの入力を簡素化し、シミュレートされたデータと実際のデータの間のギャップを減らします。実際、ニューラルネットワークへの入力として 4 つのチャネル (障害物、走行空間、経路、停止線) に含まれる情報は、実際の自動運転車に埋め込まれた知覚および位置特定アルゴリズムと高解像度マップによって簡単に再現できます。

さらに、シミュレーターの使用に関連するもう 1 つの問題は、シミュレートされたエージェントがターゲットアクションを実行する方法と自動運転車がコマンドを実行する 2 つの方法の違いに関係しています。実際、時間 t で計算されたターゲットアクションは、理想的には、シミュレーション内の正確な瞬間に即座に有効になります。違いは、これが実際の車両では起こらないことです。現実には、そのようなターゲットアクションは何らかのダイナミクスを伴って実行され、実行遅延 (t δ) が生じるからです。したがって、そのような遅延に対処するために実際の自動運転車でエージェントを訓練するには、シミュレーションにそのような応答時間を導入する必要があります。

この目的を達成するために、より現実的な動作を実現するために、エージェントはまず、エージェントが実行する必要があるターゲットアクションを予測したニューラルネットワークにローパスフィルターを追加するようにトレーニングされます。図に示すように、青い曲線は、ターゲットアクション (この例ではステアリング角度) を使用したシミュレーションで発生する理想的な瞬間応答時間を表しています。次に、ローパスフィルターを導入した後、緑色の曲線はシミュレートされたエージェントの応答時間を示します。対照的に、オレンジ色の曲線は、同じステアリング操作を実行する自動運転車の動作を示しています。ただし、この図から、シミュレートされた車両と実際の車両の間の応答時間の違いが依然として関係していることがわかります。

深層強化学習が現実世界の自動運転に取り組む

実際には、ニューラルネットワークによって事前に設定された加速度およびステアリング角度のポイントは実行可能なコマンドではなく、システムの慣性、アクチュエーターの遅延、その他の非理想的な要因などのいくつかの要因が考慮されていません。そこで、実際の車両のダイナミクスをできるだけリアルに再現するために、全結合 3 層（ディープレスポンス）からなる小規模なニューラルネットワークで構成されるモデルを開発しました。深度応答挙動のグラフは、上の図の赤い破線で示されており、実際の自動運転車を表すオレンジ色の曲線に非常に似ていることがわかります。トレーニングシーンに障害物や交通車両がないことを考えると、説明した問題はステアリング角度アクティビティでより顕著になりますが、同じ考え方が加速出力にも適用されます。

自動運転車で収集されたデータセットを使用してディープレスポンスモデルをトレーニングします。入力は人間のドライバーが車両に与えるコマンド (アクセル圧力とステアリングホイールの回転) に対応し、出力は以下に対応します。車両のスロットル、ブレーキ、曲がりは、GPS、走行距離計、またはその他のテクノロジーを使用して測定できます。このように、そのようなモデルをシミュレーターに埋め込むと、自動運転車の動作を再現する、よりスケーラブルなシステムが実現します。したがって、深さ応答モジュールはステアリング角の修正に不可欠ですが、あまり目立たない形であっても加速のために必要であり、これは障害物の導入により明確に認識されます。

システムに対するディープレスポンスモデルの影響を検証するために、2 つの異なる戦略が実際のデータでテストされました。次に、車両が経路を正しくたどっており、HD マップから得られた制限速度を遵守していることを確認します。最後に、模倣学習を通じてニューラルネットワークを事前トレーニングすると、総トレーニング時間を大幅に短縮できることが証明されました。

戦略は次のとおりです。

戦略 1: トレーニングに深い応答モデルを使用せず、ローパスフィルターを使用して実際の車両の応答をシミュレートします。ターゲットのアクション。
戦略 2: トレーニングに深い応答モデルを導入することで、より現実的なダイナミクスを確保します。

シミュレーションで実行されたテストでは、両方の戦略で良好な結果が得られました。実際、トレーニングされたシーンでも、トレーニングされていないマップエリアでも、エージェントは 100% の確率でスムーズかつ安全な動作で目標を達成できます。

実際のシナリオで戦略をテストすると、異なる結果が得られました。戦略 1 は車両のダイナミクスを処理できず、シミュレーション内のエージェントとは異なる方法で予測されたアクションを実行します。このようにして、戦略 1 は予測の予期せぬ状態を観察し、自動運転車での騒々しい動作や不快な動作につながります。

この動作はシステムの信頼性にも影響し、実際、自動運転車が道路から逸脱するのを避けるために人間の支援が必要になる場合があります。

対照的に、戦略 2 では、自動運転車の実世界のすべてのテストにおいて、車両のダイナミクスとシステムが動作を予測するためにどのように進化するかを把握している人間が引き継ぐ必要はありません。人間の介入が必要な唯一の状況は、他の道路利用者を避けることですが、戦略 1 と 2 の両方がバリアフリーシナリオで訓練されているため、これらの状況は失敗とはみなされません。

戦略 1 と戦略 2 の違いをよりよく理解するために、実際のテストの短いウィンドウ内でニューラルネットワークによって予測されたステアリング角度と中央車線までの距離を次に示します。 2 つの戦略は完全に異なる動作をすることがわかります。戦略 1 (青い曲線) は戦略 2 (赤い曲線) に比べてノイズが多く安全ではありません。これは、真の自動運転車への展開にはディープレスポンスモジュールが重要であることを証明しています。戦略は非常に重要です。。

深層強化学習が現実世界の自動運転に取り組む

最適なソリューションに到達するために数百万のセグメントが必要となる RL の制限を克服するために、模倣学習 (IL) を通じて事前トレーニングが実行されます。さらに、IL のトレンドは大規模なモデルをトレーニングすることですが、RL フレームワークを使用してシステムのトレーニングを継続し、より堅牢性と汎化機能を確保するという考え方のため、同じ小規模なニューラルネットワーク (約 100 万のパラメーター) が使用されます。こうすることで、ハードウェアリソースの使用量が増加することがなくなります。これは、将来のマルチエージェントトレーニングの可能性を考慮すると非常に重要です。

IL トレーニングフェーズで使用されるデータセットは、動作に対するルールベースのアプローチに従うシミュレートされたエージェントによって生成されます。特に、曲げの場合、純粋な追跡追跡アルゴリズムが使用され、エージェントは特定のウェイポイントに沿って移動することを目指します。代わりに、IDM モデルを使用してエージェントの縦方向の加速を制御します。

データセットを作成するために、ルールベースのエージェントが 4 つのトレーニングシーンにわたって移動され、100 ミリ秒ごとにスカラーパラメーターと 4 つの視覚入力が保存されました。代わりに、出力は純粋追跡アルゴリズムと IDM モデルによって提供されます。

出力に対応する 2 つの水平および垂直コントロールは、タプル (μacc、μsa) のみを表します。したがって、IL トレーニングフェーズでは、標準偏差 (σacc、σsa) の値は推定されず、値関数 (vacc、vsa) も推定されません。これらの機能と深度応答モジュールは、IL RL トレーニングフェーズで学習されます。

図に示すように、同じニューラルネットワークのトレーニングを事前トレーニング段階 (青い曲線、IL RL) から開始し、その結果を RL (赤い曲線、純粋な RL) と比較しています。 4つのケース。 IL RL トレーニングに必要な回数は純粋な RL よりも少なく、傾向はより安定していますが、どちらの方法でも良好な成功率を達成しています (図 a)。

深層強化学習が現実世界の自動運転に取り組む

さらに、図 b に示されている報酬曲線は、純粋な RL 手法を使用して取得されたポリシー (赤い曲線) は、トレーニング時間を長くしても許容可能な解決策にさえ到達しないことを証明していますが、IL RLポリシーは、いくつかのセグメント内で最適解に到達します (パネル b の青い曲線)。この場合、最適解はオレンジ色の破線で表されます。このベースラインは、4 つのシナリオにわたって 50,000 セグメントを実行するシミュレートされたエージェントによって得られる平均報酬を表します。シミュレートされたエージェントは、IL 事前トレーニングデータセットの収集に使用されたものと同じ決定論的ルールに従います。つまり、曲げには純粋追跡ルールが使用され、縦方向の加速には IDM ルールが使用されます。 2 つのアプローチ間のギャップはさらに顕著になる可能性があり、知能と身体の相互作用が必要となる場合がある、より複雑な操作を実行するシステムを訓練する必要があります。

以上が深層強化学習が現実世界の自動運転に取り組むの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7449

CakePHP チュートリアル

1374

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

なぜ自動運転ではガウススプラッティングが非常に人気があるのに、NeRF は放棄され始めているのでしょうか? Jan 17, 2024 pm 02:57 PM

上記と著者の個人的な理解 3 次元ガウシアンプラッティング (3DGS) は、近年、明示的な放射線フィールドとコンピューターグラフィックスの分野で出現した革新的なテクノロジーです。この革新的な方法は、数百万の 3D ガウスを使用することを特徴とし、主に暗黙的な座標ベースのモデルを使用して空間座標をピクセル値にマッピングする神経放射線場 (NeRF) 方法とは大きく異なります。明示的なシーン表現と微分可能なレンダリングアルゴリズムにより、3DGS はリアルタイムレンダリング機能を保証するだけでなく、前例のないレベルの制御とシーン編集も導入します。これにより、3DGS は、次世代の 3D 再構築と表現にとって大きな変革をもたらす可能性のあるものとして位置付けられます。この目的を達成するために、私たちは 3DGS 分野における最新の開発と懸念について初めて体系的な概要を提供します。

自動運転シナリオにおけるロングテール問題を解決するにはどうすればよいでしょうか? Jun 02, 2024 pm 02:44 PM

昨日の面接で、ロングテール関連の質問をしたかと聞かれたので、簡単にまとめてみようと思いました。自動運転のロングテール問題とは、自動運転車におけるエッジケース、つまり発生確率が低い考えられるシナリオを指します。認識されているロングテール問題は、現在、単一車両のインテリジェント自動運転車の運用設計領域を制限している主な理由の 1 つです。自動運転の基礎となるアーキテクチャとほとんどの技術的問題は解決されており、残りの 5% のロングテール問題が徐々に自動運転の開発を制限する鍵となってきています。これらの問題には、さまざまな断片的なシナリオ、極端な状況、予測不可能な人間の行動が含まれます。自動運転におけるエッジシナリオの「ロングテール」とは、自動運転車 (AV) におけるエッジケースを指します。エッジケースは、発生確率が低い可能性のあるシナリオです。これらの珍しい出来事

カメラかライダーを選択しますか?堅牢な 3D オブジェクト検出の実現に関する最近のレビュー Jan 26, 2024 am 11:18 AM

0.前面に書かれています&& 自動運転システムは、さまざまなセンサー (カメラ、ライダー、レーダーなど) を使用して周囲の環境を認識し、アルゴリズムとモデルを使用することにより、高度な知覚、意思決定、および制御テクノロジーに依存しているという個人的な理解リアルタイムの分析と意思決定に。これにより、車両は道路標識の認識、他の車両の検出と追跡、歩行者の行動の予測などを行うことで、安全な運行と複雑な交通環境への適応が可能となり、現在広く注目を集めており、将来の交通分野における重要な開発分野と考えられています。。 1つ。しかし、自動運転を難しくしているのは、周囲で何が起こっているかを車に理解させる方法を見つけることです。これには、自動運転システムの 3 次元物体検出アルゴリズムが、周囲環境にある物体 (位置を含む) を正確に認識し、記述することができる必要があります。

座標系の変換を本当にマスターしましたか?自動運転と切り離せないマルチセンサーの問題 Oct 12, 2023 am 11:21 AM

最初のパイロットおよび重要な記事では、主に自動運転技術で一般的に使用されるいくつかの座標系と、それらの間の相関と変換を完了し、最終的に統合環境モデルを構築する方法を紹介します。ここでの焦点は、車両からカメラの剛体への変換 (外部パラメータ)、カメラから画像への変換 (内部パラメータ)、および画像からピクセル単位への変換を理解することです。 3D から 2D への変換には、対応する歪み、変換などが発生します。要点：車両座標系とカメラ本体座標系を平面座標系とピクセル座標系に書き換える必要がある難易度：画像の歪みを考慮する必要がある歪み補正と歪み付加の両方を画面上で補正する2. はじめにビジョンシステムには、ピクセル平面座標系 (u, v)、画像座標系 (x, y)、カメラ座標系 ()、世界座標系 () の合計 4 つの座標系があります。それぞれの座標系には関係性があり、

自動運転と軌道予測についてはこの記事を読めば十分です！ Feb 28, 2024 pm 07:20 PM

自動運転では軌道予測が重要な役割を果たしており、自動運転軌道予測とは、車両の走行過程におけるさまざまなデータを分析し、将来の車両の走行軌跡を予測することを指します。自動運転のコアモジュールとして、軌道予測の品質は下流の計画制御にとって非常に重要です。軌道予測タスクには豊富な技術スタックがあり、自動運転の動的/静的知覚、高精度地図、車線境界線、ニューラルネットワークアーキテクチャ (CNN&GNN&Transformer) スキルなどに精通している必要があります。始めるのは非常に困難です。多くのファンは、できるだけ早く軌道予測を始めて、落とし穴を避けたいと考えています。今日は、軌道予測に関するよくある問題と入門的な学習方法を取り上げます。関連知識の紹介 1. プレビュー用紙は整っていますか? A: まずアンケートを見てください。

SIMPL: 自動運転向けのシンプルで効率的なマルチエージェント動作予測ベンチマーク Feb 20, 2024 am 11:48 AM

原題: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 論文リンク: https://arxiv.org/pdf/2402.02519.pdf コードリンク: https://github.com/HKUST-Aerial-Robotics/SIMPL 著者単位: 香港科学大学DJI 論文のアイデア: この論文は、自動運転車向けのシンプルで効率的な動作予測ベースライン (SIMPL) を提案しています。従来のエージェントセントとの比較

nuScenes の最新 SOTA | SparseAD: スパースクエリは効率的なエンドツーエンドの自動運転に役立ちます。

先頭と開始点に書かれているエンドツーエンドのパラダイムでは、統一されたフレームワークを使用して自動運転システムのマルチタスクを実現します。このパラダイムの単純さと明確さにも関わらず、サブタスクにおけるエンドツーエンドの自動運転手法のパフォーマンスは、依然としてシングルタスク手法に比べてはるかに遅れています。同時に、以前のエンドツーエンド手法で広く使用されていた高密度鳥瞰図 (BEV) 機能により、より多くのモダリティやタスクに拡張することが困難になります。ここでは、スパース検索中心のエンドツーエンド自動運転パラダイム (SparseAD) が提案されています。このパラダイムでは、スパース検索は、高密度の BEV 表現を使用せずに、空間、時間、タスクを含む運転シナリオ全体を完全に表します。具体的には、統合されたスパースアーキテクチャが、検出、追跡、オンラインマッピングなどのタスク認識のために設計されています。さらに、重い

強化学習における報酬関数設計の問題 Oct 09, 2023 am 11:58 AM

強化学習における報酬関数設計の問題はじめに強化学習は、エージェントと環境の間の相互作用を通じて最適な戦略を学習する方法です。強化学習では、報酬関数の設計がエージェントの学習効果にとって重要です。この記事では、強化学習における報酬関数の設計の問題を調査し、具体的なコード例を示します。報酬関数の役割と目標報酬関数は強化学習の重要な部分であり、特定の状態でエージェントが取得する報酬値を評価するために使用されます。その設計は、エージェントが最適なアクションを選択することで長期的な疲労を最大化するようにガイドするのに役立ちます。

See all articles

深層強化学習が現実世界の自動運転に取り組む

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック