強化学習が再び Nature の表紙を飾り、自動運転の安全性検証の新しいパラダイムによりテスト走行距離が大幅に削減-AI-php.cn

この論文は修士号を授与され、現在は同学科のテニュアトラック助教を務めています。清華大学オートメーション学科を卒業し、ミシガン大学交通研究所 (UMTRI) の研究助手も務めています。彼は、Zhang Yi 教授の指導の下、2014 年と 2019 年に清華大学オートメーション学部で学士号と博士号を取得しました。 2017 年から 2019 年まで、彼はミシガン大学の土木環境工学の客員博士課程学生として、ヘンリー X. リュー教授 (この記事の責任著者) の下で学びました。

ホームページ

テクノロジー周辺機器

強化学習が再び Nature の表紙を飾り、自動運転の安全性検証の新しいパラダイムによりテスト走行距離が大幅に削減

PHPz

Mar 31, 2023 pm 10:38 PM

ai 強化学習

高密度強化学習を導入し、AI を使用して AI を検証します。

自動運転車 (AV) 技術の急速な進歩により、私たちは 1 世紀前の自動車の出現以来見られない規模の交通革命の頂点に立っています。自動運転技術は、交通安全、モビリティ、持続可能性を大幅に改善する可能性があるため、産業界、政府機関、専門機関、学術機関の注目を集めています。

自動運転車の開発は、特にディープラーニングの出現により、過去 20 年間で大きく進歩しました。 2015 年までに、企業は 2020 年までに AV を量産すると発表し始めました。しかし、今のところ、レベル 4 の AV は市場で入手できません。

この現象には多くの理由がありますが、最も重要なのは、自動運転車の安全性能が人間のドライバーの安全性能に比べて依然として大幅に低いということです。米国の平均的なドライバーの場合、自然運転環境 (NDE) での衝突の確率は 1 マイルあたり約 1.9 × 10^−6 です。比較すると、カリフォルニア州の 2021 年の離脱レポートによると、最先端の自動運転車の離脱率は約 2.0 × 10^−5/マイルです。

注: 離脱率は自動運転の信頼性を評価するための重要な指標であり、システムが 1,000 マイルの走行ごとにドライバーに運転を引き継ぐことを要求する回数を表します。システムの離脱率が低いほど、信頼性は高くなります。離脱率が0の場合は、自動運転システムがある程度無人運転のレベルに達していることを意味します。

離脱率は偏っていると批判されることもありますが、自動運転車の安全性能を評価するために広く使用されています。

自動運転車の安全性能を向上させる上での主なボトルネックは、安全検証の効率が低いことです。現在、ソフトウェアシミュレーション、クローズドテストトラック、路上テストを組み合わせて自動運転車の非破壊検査をテストすることが一般的です。その結果、AV 開発者は評価のために多大な経済的および時間的コストを負担する必要があり、AV 展開の進行が妨げられています。

NDE 環境での AV セキュリティパフォーマンスの検証は非常に複雑です。たとえば、運転環境は時空間的に複雑であるため、そのような環境を定義するために必要な変数は高次元になります。変数の次元が指数関数的に増加するにつれて、計算の複雑さも増加します。この場合、大量のデータが与えられたとしても、深層学習モデルを学習するのは困難です。

この記事では、ミシガン大学、アナーバー大学、清華大学などの研究者が、この課題を解決するための高密度深層強化学習 (D2RL) 手法を提案しています。

この研究は『Nature』誌の表紙に掲載されました。

強化学習が再び Nature の表紙を飾り、自動運転の安全性検証の新しいパラダイムによりテスト走行距離が大幅に削減

論文アドレス: https://www.nature.com/articles/s41586-023-05732-2
プロジェクトアドレス: https://www.nature.com/articles/s41586-023-05732-2

://github.com/michigan-traffic-lab/Dense-Deep-Reinforcement-Learning

この論文は修士号を授与され、現在は同学科のテニュアトラック助教を務めています。清華大学オートメーション学科を卒業し、ミシガン大学交通研究所 (UMTRI) の研究助手も務めています。彼は、Zhang Yi 教授の指導の下、2014 年と 2019 年に清華大学オートメーション学部で学士号と博士号を取得しました。 2017 年から 2019 年まで、彼はミシガン大学の土木環境工学の客員博士課程学生として、ヘンリー X. リュー教授 (この記事の責任著者) の下で学びました。

研究紹介

D2RL 手法の基本的な考え方は、セーフティクリティカルでないデータを特定して削除し、セーフティクリティカルなデータを使用してニューラルネットワークをトレーニングすることです。セキュリティ上重要なデータはほんの一部であるため、残りのデータには情報が非常に高密度になります。

DRL 手法と比較して、D2RL 手法は、不偏性を失うことなく、ポリシー勾配推定の分散を数桁大幅に削減できます。この大幅な分散の減少により、ニューラルネットワークが DRL 手法では困難なタスクを学習して完了できるようになります。

AV テストでは、この研究では D2RL 手法を利用して、ニューラルネットワークを通じてバックグラウンドビークル (BV) をトレーニングし、いつどのような敵対的操作を実行するかを学習し、テスト効率の向上を目指しています。 D2RL は、公平なテストを保証しながら、AI ベースの敵対的テスト環境で AV に必要なテスト距離を数桁削減できます。

D2RL 手法は、以前のシナリオベースの手法では不可能であった、複数の高速道路、交差点、環状交差点などの複雑な運転環境に適用できます。さらに、本研究で提案する手法は、AIを活用してAIを検証するインテリジェントなテスト環境を構築することができます。これは、他の安全性が重要なシステムのテストやトレーニングを加速するための扉を開くパラダイムシフトです。

###本研究では、AIを活用した試験手法の有効性を証明するために、大規模な実走行データセットを用いてBVを学習させ、シミュレーション実験と物理的な試験路でのフィールド実験を実施しました。以下の図 1 を参照してください。 ###

強化学習が再び Nature の表紙を飾り、自動運転の安全性検証の新しいパラダイムによりテスト走行距離が大幅に削減

高密度深層強化学習

AI テクノロジーを活用するために、この研究では AV テスト問題をマルコフ決定プロセス (MDP) として定式化しました。 , BVの動作は現在のステータス情報に基づいて決定されます。この研究の目的は、AV と対話する BV の動作を制御するニューラルネットワークによってモデル化されたポリシー (DRL エージェント) をトレーニングして、評価効率を最大化し、公平性を確保することです。ただし、前述したように、次元数と計算の複雑さの制限により、DRL 手法を直接適用した場合、効果的なポリシーを学習することは困難または不可能です。

ほとんどの状態は非クリティカルであり、セキュリティクリティカルなイベントに関する情報を提供できないため、D2RL はこれらの非クリティカルな状態からデータを削除することに重点を置いています。 AV テストの問題については、多くのセキュリティメトリクスを活用して、さまざまな効率と有効性を持つ重大な状態を特定できます。この研究で利用される重大度メトリクスは、現在の状態の特定の時間フレーム (たとえば、1 秒) 内の AV 衝突率の外部近似です。次に、研究ではマルコフプロセスを編集して非クリティカル状態のデータを破棄し、残りのデータを政策勾配推定と DRL トレーニング用のブートストラップに使用しました。

以下の図 2 に示すように、DRL と比較した D2RL の利点は、トレーニングプロセス中の報酬を最大化できることです。

強化学習が再び Nature の表紙を飾り、自動運転の安全性検証の新しいパラダイムによりテスト走行距離が大幅に削減

AV シミュレーションテスト

D2RL 手法の精度、効率、拡張性、汎用性を評価するために、この研究ではシミュレーションを実施しました。テスト。以下の図 3 に示すように、各テストセットについて、固定距離の交通移動をシミュレーションし、テスト結果を記録して分析しました。

強化学習が再び Nature の表紙を飾り、自動運転の安全性検証の新しいパラダイムによりテスト走行距離が大幅に削減

D2RL のスケーラビリティと一般化をさらに研究するために、この研究では、車線数 (2 車線と 3 車線) と走行距離が異なる AV-I モデルを実施しました。 (400m、2km、4km、25km) の実験。米国の平均的な通勤者の移動距離は片道約 25 キロメートルであるため、この記事では 25 キロメートルの移動について検討します。結果を表 1 に示します。

以上が強化学習が再び Nature の表紙を飾り、自動運転の安全性検証の新しいパラダイムによりテスト走行距離が大幅に削減の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7529

CakePHP チュートリアル

1378

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

Debian Mail Serverファイアウォールの構成のヒント Apr 13, 2025 am 11:42 AM

Debian Mail Serverのファイアウォールの構成は、サーバーのセキュリティを確保するための重要なステップです。以下は、iPtablesやFirewalldの使用を含む、一般的に使用されるファイアウォール構成方法です。 iPtablesを使用してファイアウォールを構成してIPTablesをインストールします（まだインストールされていない場合）：sudoapt-getupdatesudoapt-getinstalliptablesview現在のiptablesルール：sudoiptables-l configuration

Debian Apacheログレベルを設定する方法 Apr 13, 2025 am 08:33 AM

この記事では、DebianシステムのApachewebサーバーのロギングレベルを調整する方法について説明します。構成ファイルを変更することにより、Apacheによって記録されたログ情報の冗長レベルを制御できます。方法1：メイン構成ファイルを変更して、構成ファイルを見つけます。Apache2.xの構成ファイルは、通常/etc/apache2/ディレクトリにあります。ファイル名は、インストール方法に応じて、apache2.confまたはhttpd.confである場合があります。構成ファイルの編集：テキストエディターを使用してルートアクセス許可を使用して構成ファイルを開く（nanoなど）：sudonano/etc/apache2/apache2.conf

Debian Readdirのパフォーマンスを最適化する方法 Apr 13, 2025 am 08:48 AM

Debian Systemsでは、Directoryコンテンツを読み取るためにReadDirシステム呼び出しが使用されます。パフォーマンスが良くない場合は、次の最適化戦略を試してください。ディレクトリファイルの数を簡素化します。大きなディレクトリをできる限り複数の小さなディレクトリに分割し、Readdirコールごとに処理されたアイテムの数を減らします。ディレクトリコンテンツのキャッシュを有効にする：キャッシュメカニズムを構築し、定期的にキャッシュを更新するか、ディレクトリコンテンツが変更されたときに、頻繁な呼び出しをreaddirに削減します。メモリキャッシュ（memcachedやredisなど）またはローカルキャッシュ（ファイルやデータベースなど）を考慮することができます。効率的なデータ構造を採用する：ディレクトリトラバーサルを自分で実装する場合、より効率的なデータ構造（線形検索の代わりにハッシュテーブルなど）を選択してディレクトリ情報を保存およびアクセスする

Debian Readdirによるファイルソートを実装する方法 Apr 13, 2025 am 09:06 AM

Debian Systemsでは、Readdir関数はディレクトリコンテンツを読み取るために使用されますが、それが戻る順序は事前に定義されていません。ディレクトリ内のファイルを並べ替えるには、最初にすべてのファイルを読み取り、QSORT関数を使用してソートする必要があります。次のコードは、debianシステムにreaddirとqsortを使用してディレクトリファイルを並べ替える方法を示しています。

Debian Readdirが他のツールと統合する方法 Apr 13, 2025 am 09:42 AM

DebianシステムのReadDir関数は、ディレクトリコンテンツの読み取りに使用されるシステムコールであり、Cプログラミングでよく使用されます。この記事では、ReadDirを他のツールと統合して機能を強化する方法について説明します。方法1：C言語プログラムを最初にパイプラインと組み合わせて、cプログラムを作成してreaddir関数を呼び出して結果をinclude＃include＃include inctargc、char*argv []）{dir*dir; structdireant*entry; if（argc！= 2）{（argc！= 2）{

Debian Mail Server SSL証明書のインストール方法 Apr 13, 2025 am 11:39 AM

Debian Mail ServerにSSL証明書をインストールする手順は次のとおりです。1。最初にOpenSSL Toolkitをインストールすると、OpenSSLツールキットがシステムに既にインストールされていることを確認してください。インストールされていない場合は、次のコマンドを使用してインストールできます。sudoapt-getUpdatesudoapt-getInstalopenssl2。秘密キーと証明書のリクエストを生成次に、OpenSSLを使用して2048ビットRSA秘密キーと証明書リクエスト（CSR）を生成します：Openss

Debian OpenSSLがどのように中間の攻撃を防ぐか Apr 13, 2025 am 10:30 AM

Debian Systemsでは、OpenSSLは暗号化、復号化、証明書管理のための重要なライブラリです。中間の攻撃（MITM）を防ぐために、以下の測定値をとることができます。HTTPSを使用する：すべてのネットワーク要求がHTTPの代わりにHTTPSプロトコルを使用していることを確認してください。 HTTPSは、TLS（Transport Layer Security Protocol）を使用して通信データを暗号化し、送信中にデータが盗まれたり改ざんされたりしないようにします。サーバー証明書の確認：クライアントのサーバー証明書を手動で確認して、信頼できることを確認します。サーバーは、urlsessionのデリゲート方法を介して手動で検証できます

Debian Hadoopログ管理を行う方法 Apr 13, 2025 am 10:45 AM

DebianでHadoopログを管理すると、次の手順とベストプラクティスに従うことができます。ログ集約を有効にするログ集約を有効にします。Yarn.log-Aggregation-set yarn-site.xmlファイルでは、ログ集約を有効にします。ログ保持ポリシーの構成：yarn.log-aggregation.retain-secondsを設定して、172800秒（2日）などのログの保持時間を定義します。ログストレージパスを指定：Yarn.Nを介して

See all articles

強化学習が再び Nature の表紙を飾り、自動運転の安全性検証の新しいパラダイムによりテスト走行距離が大幅に削減

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック