共同運転シナリオにおける深度、姿勢、道路推定のための知覚ネットワーク-AI-php.cn

ホームページ

テクノロジー周辺機器

共同運転シナリオにおける深度、姿勢、道路推定のための知覚ネットワーク

PHPz

Apr 08, 2023 pm 10:11 PM

オートパイロット

7 月 22 日にアップロードされた arXiv 論文「JPerceiver: Joint Perception Network for Depth, Pose and Layout Estimation in Driving Scenes」は、オーストラリアのシドニー大学の Tao Dacheng 教授と北京 JD Research Institute の研究について報告しています。。

共同運転シナリオにおける深度、姿勢、道路推定のための知覚ネットワーク

奥行き推定、ビジュアルオドメトリ (VO)、および鳥瞰図 (BEV) シーンレイアウト推定は、自動運転車の動きの鍵である運転シーン認識のための 3 つの重要なタスクです。運転計画とナビゲーションの基礎。補完的ではありますが、通常は個別のタスクに焦点を当て、3 つすべてに同時に取り組むことはほとんどありません。

単純なアプローチは、これを逐次的または並列的に独立して実行することですが、3 つの欠点があります、すなわち、1) 深度および VO の結果は、固有のスケール曖昧さの問題の影響を受ける、2) BEV レイアウトは通常行われます。明示的なオーバーレイとアンダーレイの関係を無視して道路と車両を独立して推定する; 3) 深度マップはシーンのレイアウトを推測するための有用な幾何学的手がかりですが、BEV のレイアウトは実際には、深度関連の情報を使用せずに正面図の画像から直接予測されます。

本論文では、これらの問題を解決し、同時に単眼ビデオシーケンスからスケール知覚深度、VO、BEVレイアウトを推定するための共同知覚フレームワークJPerceiverを提案します。クロスビュー幾何変換 (CGT) を使用して、慎重に設計されたスケール損失に従って、絶対スケールを道路レイアウトから深度および VO に伝播します。同時に、クロスビューおよびクロスモーダル転送 (CCT) モジュールは、奥行きの手がかりを使用して、注意メカニズムを通じて道路と車両のレイアウトを推論するように設計されています。 JPerceiver は、エンドツーエンドのマルチタスク学習方法でトレーニングされています。この方法では、CGT スケールロスモジュールと CCT モジュールがタスク間の知識伝達を促進し、各タスクの特徴学習を促進します。

コードとモデルはダウンロードできます

https://github.com/sunnyHelen/JPerceiver. 図に示すように、JPerceiver は深度、姿勢、道路レイアウトの 3 つのネットワークで構成されており、すべてエンコーダー/デコーダーアーキテクチャに基づいています。深度ネットワークは、現在のフレーム It の深度マップ Dt を予測することを目的としています。ここで、各深度値は 3D ポイントとカメラの間の距離を表します。ポーズネットワークの目的は、現在のフレーム It とその隣接フレーム It m の間のポーズ変換 Tt → t m を予測することです。道路レイアウトネットワークの目的は、現在のフレームの BEV レイアウト Lt、つまりトップビューデカルト平面における道路と車両の意味論的な占有を推定することです。 3 つのネットワークはトレーニング中に共同で最適化されます。

共同運転シナリオにおける深度、姿勢、道路推定のための知覚ネットワーク #深度と姿勢を予測する 2 つのネットワークは、自己監視型の方法で測光損失と滑らかさ損失を使用して共同で最適化されます。さらに、CGT スケール損失は、単眼の深さと VO 推定のスケール曖昧さの問題を解決するようにも設計されています。

BEV レイアウトのスケール情報を使用して、スケールを意識した環境認識を実現するために、CGT のスケール損失が深度推定と VO に提案されます。 BEV レイアウトは BEV デカルト平面での意味占有を示すため、車両の前方の Z メートルと左右の (Z/2) メートルの範囲をカバーします。これは、図に示すように、自然距離フィールド z、つまり自車両に対する各ピクセルのメトリック距離 zij を提供します。

共同運転シナリオにおける深度、姿勢、道路推定のための知覚ネットワーク BEV 平面が地面であると仮定します。 , その原点は自車座標系の原点の直下にあり、カメラの外部パラメータに基づいて、BEV 平面をホモグラフィー変換によって前方カメラに投影できます。したがって、上の図に示すように、BEV 距離フィールド z を前方カメラに投影し、予測深さ d を調整するために使用することで、CGT スケール損失を導き出すことができます。

道路の場合レイアウト推定にはエンコーダ・デコーダネットワーク構造が採用されています。共有エンコーダが特徴抽出器として使用され、異なるセマンティックカテゴリの BEV レイアウトを同時に学習するための異なるデコーダとして使用されることは注目に値します。さらに、CCT モジュールは、タスク間の機能の相互作用と知識の伝達を強化し、BEV の空間推論に 3D 幾何学的情報を提供するように設計されています。道路レイアウトネットワークを正規化するために、さまざまな損失項を組み合わせてハイブリッド損失を形成し、さまざまなクラスのバランスの取れた最適化を実現します。

CCT は、前方ビュー特徴 Ff、BEV レイアウト特徴 Fb、再変換前方特徴 Ff'、前方奥行き特徴 FD の間の相関関係を調査し、図に示すように、それに応じてレイアウト特徴を改良します。クロスビューモジュールとクロスモーダルモジュールの

CCT-CV 共同運転シナリオにおける深度、姿勢、道路推定のための知覚ネットワークと

CCT-CM

という 2 つの部分に分かれています。

CCT では、Ff と Fd は対応する知覚ブランチのエンコーダーによって抽出されますが、Fb はビュー投影 MLP によって取得されて Ff を BEV に変換し、サイクル損失によって同じ MLP が Ff' に再変換されるように制約されました。。

CCT-CV では、クロスアテンションメカニズムを使用して、前方視界と BEV 特徴の間の幾何学的対応を発見し、前方視界情報の改良を導き、BEV 推論の準備をします。前方ビュー画像の特徴を最大限に活用するために、Fb と Ff がそれぞれクエリとキーとしてパッチ: Qbi と Kbi に投影されます。

前方ビュー機能の利用に加えて、CCT-CM は Fd からの 3D 幾何学的情報を強制するためにも導入されています。 Fd は前方ビュー画像から抽出されるため、Ff をブリッジとして使用してクロスモーダルギャップを減らし、Fd と Fb の間の対応関係を学習するのが合理的です。 Fd は Value の役割を果たし、BEV 情報に関連する貴重な 3 次元幾何学情報を取得し、道路レイアウト推定の精度をさらに向上させます。

異なるレイアウトを同時に予測するための共同学習フレームワークを探索するプロセスでは、異なるセマンティックカテゴリの特性と分布に大きな違いがあります。フィーチャについては、通常、運転シナリオの道路レイアウトを接続する必要がありますが、さまざまな車両ターゲットをセグメント化する必要があります。

分布に関しては、曲がり角のシーンよりも直線道路のシーンが多く観察されますが、これは実際のデータセットでは合理的です。この場合、単純なクロスエントロピー (CE) 損失または L1 損失では失敗するため、この違いと不均衡により、BEV レイアウトの学習、特に異なるカテゴリを共同で予測することが困難になります。分散ベースの CE 損失、地域ベースの IoU 損失、境界損失などのいくつかのセグメンテーション損失がハイブリッド損失に結合され、各カテゴリのレイアウトが予測されます。

実験結果は次のとおりです。

共同運転シナリオにおける深度、姿勢、道路推定のための知覚ネットワーク

以上が共同運転シナリオにおける深度、姿勢、道路推定のための知覚ネットワークの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7563

CakePHP チュートリアル

1385

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

なぜ自動運転ではガウススプラッティングが非常に人気があるのに、NeRF は放棄され始めているのでしょうか? Jan 17, 2024 pm 02:57 PM

上記と著者の個人的な理解 3 次元ガウシアンプラッティング (3DGS) は、近年、明示的な放射線フィールドとコンピューターグラフィックスの分野で出現した革新的なテクノロジーです。この革新的な方法は、数百万の 3D ガウスを使用することを特徴とし、主に暗黙的な座標ベースのモデルを使用して空間座標をピクセル値にマッピングする神経放射線場 (NeRF) 方法とは大きく異なります。明示的なシーン表現と微分可能なレンダリングアルゴリズムにより、3DGS はリアルタイムレンダリング機能を保証するだけでなく、前例のないレベルの制御とシーン編集も導入します。これにより、3DGS は、次世代の 3D 再構築と表現にとって大きな変革をもたらす可能性のあるものとして位置付けられます。この目的を達成するために、私たちは 3DGS 分野における最新の開発と懸念について初めて体系的な概要を提供します。

自動運転シナリオにおけるロングテール問題を解決するにはどうすればよいでしょうか? Jun 02, 2024 pm 02:44 PM

昨日の面接で、ロングテール関連の質問をしたかと聞かれたので、簡単にまとめてみようと思いました。自動運転のロングテール問題とは、自動運転車におけるエッジケース、つまり発生確率が低い考えられるシナリオを指します。認識されているロングテール問題は、現在、単一車両のインテリジェント自動運転車の運用設計領域を制限している主な理由の 1 つです。自動運転の基礎となるアーキテクチャとほとんどの技術的問題は解決されており、残りの 5% のロングテール問題が徐々に自動運転の開発を制限する鍵となってきています。これらの問題には、さまざまな断片的なシナリオ、極端な状況、予測不可能な人間の行動が含まれます。自動運転におけるエッジシナリオの「ロングテール」とは、自動運転車 (AV) におけるエッジケースを指します。エッジケースは、発生確率が低い可能性のあるシナリオです。これらの珍しい出来事

カメラかライダーを選択しますか?堅牢な 3D オブジェクト検出の実現に関する最近のレビュー Jan 26, 2024 am 11:18 AM

0.前面に書かれています&& 自動運転システムは、さまざまなセンサー (カメラ、ライダー、レーダーなど) を使用して周囲の環境を認識し、アルゴリズムとモデルを使用することにより、高度な知覚、意思決定、および制御テクノロジーに依存しているという個人的な理解リアルタイムの分析と意思決定に。これにより、車両は道路標識の認識、他の車両の検出と追跡、歩行者の行動の予測などを行うことで、安全な運行と複雑な交通環境への適応が可能となり、現在広く注目を集めており、将来の交通分野における重要な開発分野と考えられています。。 1つ。しかし、自動運転を難しくしているのは、周囲で何が起こっているかを車に理解させる方法を見つけることです。これには、自動運転システムの 3 次元物体検出アルゴリズムが、周囲環境にある物体 (位置を含む) を正確に認識し、記述することができる必要があります。

座標系の変換を本当にマスターしましたか?自動運転と切り離せないマルチセンサーの問題 Oct 12, 2023 am 11:21 AM

最初のパイロットおよび重要な記事では、主に自動運転技術で一般的に使用されるいくつかの座標系と、それらの間の相関と変換を完了し、最終的に統合環境モデルを構築する方法を紹介します。ここでの焦点は、車両からカメラの剛体への変換 (外部パラメータ)、カメラから画像への変換 (内部パラメータ)、および画像からピクセル単位への変換を理解することです。 3D から 2D への変換には、対応する歪み、変換などが発生します。要点：車両座標系とカメラ本体座標系を平面座標系とピクセル座標系に書き換える必要がある難易度：画像の歪みを考慮する必要がある歪み補正と歪み付加の両方を画面上で補正する2. はじめにビジョンシステムには、ピクセル平面座標系 (u, v)、画像座標系 (x, y)、カメラ座標系 ()、世界座標系 () の合計 4 つの座標系があります。それぞれの座標系には関係性があり、

自動運転と軌道予測についてはこの記事を読めば十分です！ Feb 28, 2024 pm 07:20 PM

自動運転では軌道予測が重要な役割を果たしており、自動運転軌道予測とは、車両の走行過程におけるさまざまなデータを分析し、将来の車両の走行軌跡を予測することを指します。自動運転のコアモジュールとして、軌道予測の品質は下流の計画制御にとって非常に重要です。軌道予測タスクには豊富な技術スタックがあり、自動運転の動的/静的知覚、高精度地図、車線境界線、ニューラルネットワークアーキテクチャ (CNN&GNN&Transformer) スキルなどに精通している必要があります。始めるのは非常に困難です。多くのファンは、できるだけ早く軌道予測を始めて、落とし穴を避けたいと考えています。今日は、軌道予測に関するよくある問題と入門的な学習方法を取り上げます。関連知識の紹介 1. プレビュー用紙は整っていますか? A: まずアンケートを見てください。

SIMPL: 自動運転向けのシンプルで効率的なマルチエージェント動作予測ベンチマーク Feb 20, 2024 am 11:48 AM

原題: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 論文リンク: https://arxiv.org/pdf/2402.02519.pdf コードリンク: https://github.com/HKUST-Aerial-Robotics/SIMPL 著者単位: 香港科学大学DJI 論文のアイデア: この論文は、自動運転車向けのシンプルで効率的な動作予測ベースライン (SIMPL) を提案しています。従来のエージェントセントとの比較

エンドツーエンドおよび次世代の自動運転システムと、エンドツーエンドの自動運転に関する誤解について話しましょう。 Apr 15, 2024 pm 04:13 PM

この 1 か月間、いくつかのよく知られた理由により、私は業界のさまざまな教師やクラスメートと非常に集中的な交流をしてきました。この交換で避けられない話題は当然、エンドツーエンドと人気の Tesla FSDV12 です。この機会に、現時点での私の考えや意見を整理し、皆様のご参考とご議論に役立てたいと思います。エンドツーエンドの自動運転システムをどのように定義するか、またエンドツーエンドで解決することが期待される問題は何でしょうか?最も伝統的な定義によれば、エンドツーエンドシステムとは、センサーから生の情報を入力し、関心のある変数をタスクに直接出力するシステムを指します。たとえば、画像認識では、従来の特徴抽出 + 分類子方式と比較して、CNN はエンドツーエンドと言えます。自動運転タスクでは、各種センサー（カメラ/LiDAR）からのデータを入力

nuScenes の最新 SOTA | SparseAD: スパースクエリは効率的なエンドツーエンドの自動運転に役立ちます。

先頭と開始点に書かれているエンドツーエンドのパラダイムでは、統一されたフレームワークを使用して自動運転システムのマルチタスクを実現します。このパラダイムの単純さと明確さにも関わらず、サブタスクにおけるエンドツーエンドの自動運転手法のパフォーマンスは、依然としてシングルタスク手法に比べてはるかに遅れています。同時に、以前のエンドツーエンド手法で広く使用されていた高密度鳥瞰図 (BEV) 機能により、より多くのモダリティやタスクに拡張することが困難になります。ここでは、スパース検索中心のエンドツーエンド自動運転パラダイム (SparseAD) が提案されています。このパラダイムでは、スパース検索は、高密度の BEV 表現を使用せずに、空間、時間、タスクを含む運転シナリオ全体を完全に表します。具体的には、統合されたスパースアーキテクチャが、検出、追跡、オンラインマッピングなどのタスク認識のために設計されています。さらに、重い

See all articles

共同運転シナリオにおける深度、姿勢、道路推定のための知覚ネットワーク

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック