目次
#論文のアイデア:
主な貢献:
ネットワーク設計:
概要:
引用:
ホームページ テクノロジー周辺機器 AI CVPR\'24 | LightDiff: 夜を直接照らす、低照度シーンの拡散モデル!

CVPR\'24 | LightDiff: 夜を直接照らす、低照度シーンの拡散モデル!

Apr 15, 2024 pm 12:40 PM
フレーム オートパイロット

原題: Light the Night: A Multi-Condition Diffusion Framework for Unpaired Low-Light Enhancement in Autonomous Driving

論文リンク: https://arxiv.org/pdf/2404.04804.pdf

著者の所属: クリーブランド州立大学、テキサス大学オースティン校、A*STAR、ニューヨーク大学、カリフォルニア大学ロサンゼルス校

CVPR\'24 | LightDiff:低光照场景下的扩散模型,直接照亮夜晚!

#論文のアイデア:

LightDiff は、自動運転用の視覚中心の認識システムの効率と拡張性を向上させるテクノロジーです。 LiDAR システムは最近大きな注目を集めています。ただし、これらのシステムは暗い環境では問題が発生することが多く、パフォーマンスや安全性に影響を与える可能性があります。この問題を解決するために、この記事では、自動運転アプリケーションにおける低照度の画像品質を向上させるために設計された自動フレームワークである LightDiff を紹介します。具体的には、本論文では複数条件制御拡散モデルを採用しています。 LightDiff では、ペアごとのデータを手動で収集する必要がなくなり、代わりに動的なデータ劣化プロセスが利用されます。これには、深度マップ、RGB 画像、テキスト キャプションなどのさまざまなモダリティからの入力重みを適応的に制御できる新しいマルチ条件アダプターが組み込まれており、低照度および低照度条件下でコンテンツの一貫性を同時に維持できます。さらに、拡張画像を検出モデルの知識と照合するために、LightDiff はパーセプトロン固有のスコアを報酬として使用し、強化学習による拡散トレーニング プロセスをガイドします。 nuScenes データセットに関する広範な実験により、LightDiff が高い視覚品質スコアを達成しながら、夜間条件における複数の最先端の 3D 検出器のパフォーマンスを大幅に向上できることが示され、自動運転の安全性を確保する可能性が強調されています。

主な貢献:

この論文は、自動運転における低照度のカメラ画像を強化し、夜間の大量の照明の必要性を減らすための照明拡散 (LightDiff) モデルを提案します。データ収集には、日中のパフォーマンス機能が必要であり、維持されます。

この論文では、深度マップや画像キャプションを含む複数の入力モードを統合し、高い視覚品質を維持しながら画像変換におけるセマンティックな整合性を確保するための複数条件アダプターを提案します。この論文では、効率的なモデルトレーニングを実現するために、昼間のデータから昼と夜の画像ペアを生成する実用的なプロセスを採用しています。

この論文では、強化学習を使用した微調整メカニズムを紹介し、知覚的にカスタマイズされたドメイン知識 (信頼できる LIDAR と統計的分布の一貫性) と組み合わせて、拡散プロセスが人間の視覚認識に役立つ強度を確保できるようにします。知覚モデルを実行するための知覚モデル。この方法は人間の視覚認識に大きな利点があり、知覚モデルの利点もあります。

nuScenes データセットに対する広範な実験により、LightDiff が夜間の 3D 車両検出のパフォーマンスを大幅に向上させ、複数の視点メトリクスで他の生成モデルよりも優れていることがわかりました。

ネットワーク設計:

CVPR\'24 | LightDiff:低光照场景下的扩散模型,直接照亮夜晚!

図 1.夜間の運転シナリオは日中よりも危険です。致死率は夜間にはるかに高くなります[4]。この記事は、夜間の画像を強化して、夜間運転の全体的な安全性を向上させることを目的としています。

図 1 に示すように、夜間の運転は人間にとって、特に自動運転車にとっては困難です。この課題は、2018 年 3 月 18 日にアリゾナ州でウーバー アドバンスト テクノロジーズ グループの自動運転車が歩行者をはねて死亡させるという大惨事によって浮き彫りになりました [37]。この事故は、車両が薄暗い状況で歩行者を正確に検出できなかったことによって引き起こされ、特にそのような厳しい環境において、自動運転車の安全性の問題が最前線に浮上した。ビジョン中心の自動運転システムはカメラセンサーへの依存度が高まるにつれ、これらの車両の全体的な安全性を確保するには、低照度条件下での安全性の懸念に対処することがますます重要になっています。

直観的な解決策は、大量の夜間走行データを収集することです。しかし、この方法は多大な労力と費用がかかるだけでなく、夜間と昼間の画像分布の違いにより昼間モデルのパフォーマンスに悪影響を与える可能性があります。これらの課題に対処するために、この文書では、手動によるデータ収集の必要性を排除し、昼間モデルのパフォーマンスを維持する新しいアプローチである照明拡散 (LightDiff) モデルを提案します。

LightDiff の目標は、低照度のカメラ画像を強化し、知覚モデルのパフォーマンスを向上させることです。 LightDiff は、動的な低照度減衰プロセスを使用して、既存の昼間データからトレーニング用の合成昼夜画像ペアを生成します。次に、この論文では、夜間のシーンを昼間の同等のシーンに効果的に変換する高品質の視覚効果を生成できるため、安定拡散 [44] テクノロジーを採用しています。ただし、意味の一貫性を維持することは自動運転において極めて重要であり、これは元の安定拡散モデルが直面する課題でした。これを克服するために、LightDiff は、推定深度マップやカメラ画像キャプションなどの複数の入力モダリティをマルチ条件アダプターと組み合わせます。このアダプターは、各入力モダリティの重みをインテリジェントに決定し、高い視覚品質を維持しながら、変換された画像のセマンティックな整合性を確保します。人間の視覚だけでなく知覚モデルにとっても明るい方向に拡散プロセスを導くために、この論文ではさらに強化学習を使用してこの論文の LightDiff を微調整し、知覚に合わせて調整されたドメイン知識をループに追加します。この論文は、自動運転データセット nuScenes [7] で広範な実験を実施し、LightDiff が 2 つの最先端モデル、BEVDepth [32] と BEVStereo の夜間 3D 車両検出の平均精度 (AP) を大幅に向上できることを実証しています。 . [31] は 4.2% と 4.6% 改善しました。

CVPR\'24 | LightDiff:低光照场景下的扩散模型,直接照亮夜晚!

図 2. この記事の照明拡散モデル (LightDiff) のアーキテクチャ。トレーニング段階では、トレーニング データ生成プロセスにより、ペア データを手動で収集することなく、三峰性データを取得できます。当社の LightDiff は、複数条件アダプターを使用して複数の条件を動的に重み付けし、LIDAR および分散報酬モデリング (LDRM) と組み合わせて、知覚指向の制御を可能にします。

CVPR\'24 | LightDiff:低光照场景下的扩散模型,直接照亮夜晚!

#図 3. この記事のトレーニング データ生成プロセス。低照度劣化変換 [9] はトレーニング段階でのみ実装されます。トレーニング済みの深度推定ネットワークはフリーズされ、この記事の照明拡散モデルのトレーニングとテストの段階で使用されます。

CVPR\'24 | LightDiff:低光照场景下的扩散模型,直接照亮夜晚!

図 4. リカレント ライティング推論の概略図。テキスト ヒントと深度マップの生成の精度を向上させ、暗い画像の悪影響を軽減するように設計されています。

実験結果:

CVPR\'24 | LightDiff:低光照场景下的扩散模型,直接照亮夜晚!

図 5. nuScenes 検証セット内の夜間画像のサンプルの視覚的比較。

CVPR\'24 | LightDiff:低光照场景下的扩散模型,直接照亮夜晚!

図 6. nuScenes 検証セットの夜間画像の例における 3D 検出結果の視覚化。本稿では 3 次元検出器として BEVDepth [32] を使用し,カメラの正面図と鳥瞰図を可視化する.

CVPR\'24 | LightDiff:低光照场景下的扩散模型,直接照亮夜晚!

図 7. MultiCondition アダプターを使用した場合と使用しない場合の、この記事の LightDiff の視覚効果を示します。 ControlNet [55] への入力は、同じテキスト キューや深度マップを含め、一貫性を保ちます。マルチコンディションアダプターにより、強調時の色のコントラストが向上し、詳細がより豊かになります。

CVPR\'24 | LightDiff:低光照场景下的扩散模型,直接照亮夜晚!

図 8. さまざまなモーダル入力のアテンション マップの例。

CVPR\'24 | LightDiff:低光照场景下的扩散模型,直接照亮夜晚!

図 9. Recurrent Lighting Inference (ReLI) による強化されたマルチモーダル生成の概略図。 ReLI を 1 回呼び出すことで、テキスト ヒントと深度マップの予測の精度が向上します。

CVPR\'24 | LightDiff:低光照场景下的扩散模型,直接照亮夜晚!CVPR\'24 | LightDiff:低光照场景下的扩散模型,直接照亮夜晚!CVPR\'24 | LightDiff:低光照场景下的扩散模型,直接照亮夜晚!CVPR\'24 | LightDiff:低光照场景下的扩散模型,直接照亮夜晚!

概要:

この記事では、自動運転アプリケーション向けに設計されたツールである LightDiff について紹介します。低照度環境での画質を向上させ、視覚中心の認識システムが直面する課題を軽減するために設計された特別なフレームワーク。 LightDiff は、動的なデータ劣化プロセス、さまざまな入力モダリティ用のマルチ条件アダプター、強化学習を使用した知覚に特化したスコアガイド型報酬モデリングを活用することにより、nuScenes データセットの夜間画像品質と 3D パフォーマンス、車両検出パフォーマンスを大幅に向上させます。このイノベーションにより、大量の夜間データの必要性がなくなるだけでなく、画像変換におけるセマンティックな整合性も確保され、自動運転シナリオにおける安全性と信頼性を向上させる可能性が実証されました。現実的な昼夜ペア画像が存在しない場合、車のライトで薄暗い運転画像を合成することは非常に困難であり、この分野での研究は制限されています。将来の研究は、高品質のトレーニング データのより適切な収集または生成に焦点を当てる可能性があります。

引用:

@ARTICLE{2024arXiv240404804L,
author = {{Li}、Jinlong と {Li}、Baolu と {Tu}、Zhengzhong と { Liu}、Xinyu と {Guo}、Qing と {Juefei-Xu}、Felix と {Xu}、Runsheng と {Yu}、Hongkai},
title = "{夜を照らす: のための複数条件拡散フレームワーク自動運転における対になっていない低照度の強化}",
journal = {arXiv e-prints},
keywords = {コンピューター サイエンス - コンピューター ビジョンとパターン認識},
year = 2024,
month = apr,
eid = {arXiv:2404.04804},
pages = {arXiv:2404.04804},
doi = {10.48550/arXiv.2404.04804},
archivePrefix = {arXiv},
eprint = {2404.04804},
primaryClass = {cs.CV},
adsurl = {https://ui.adsabs.harvard.edu/abs/2024arXiv240404804L},
adsnote = {SAO 提供/NASA 天体物理データ システム}
}

以上がCVPR\'24 | LightDiff: 夜を直接照らす、低照度シーンの拡散モデル!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Java フレームワークの商用サポートの費用対効果を評価する方法 Java フレームワークの商用サポートの費用対効果を評価する方法 Jun 05, 2024 pm 05:25 PM

Java フレームワークの商用サポートのコスト/パフォーマンスを評価するには、次の手順が必要です。 必要な保証レベルとサービス レベル アグリーメント (SLA) 保証を決定します。研究サポートチームの経験と専門知識。アップグレード、トラブルシューティング、パフォーマンスの最適化などの追加サービスを検討してください。ビジネス サポートのコストと、リスクの軽減と効率の向上を比較検討します。

「クローズド ループ」に向けて | PlanAgent: MLLM に基づく自動運転のクローズド ループ プランニングのための新しい SOTA! 「クローズド ループ」に向けて | PlanAgent: MLLM に基づく自動運転のクローズド ループ プランニングのための新しい SOTA! Jun 08, 2024 pm 09:30 PM

中国科学院オートメーション研究所の深層強化学習チームは、Li Auto氏らとともに、マルチモーダル大規模言語モデルMLLM(PlanAgent)に基づく自動運転のための新しい閉ループ計画フレームワークを提案した。この手法は、シーンの鳥瞰図とグラフベースのテキスト プロンプトを入力として受け取り、マルチモーダル大規模言語モデルのマルチモーダル理解機能と常識推論機能を利用して、シーンの理解から生成までの階層的推論を実行します。水平移動と垂直移動の指示を作成し、プランナーが必要とする指示をさらに生成します。このメソッドは、大規模で困難な nuPlan ベンチマークでテストされており、実験では、PlanAgent が通常のシナリオとロングテール シナリオの両方で最先端 (SOTA) のパフォーマンスを達成することが示されています。従来の大規模言語モデル (LLM) メソッドと比較して、PlanAgent

レビュー!自動運転推進におけるベーシックモデルの重要な役割を総まとめ レビュー!自動運転推進におけるベーシックモデルの重要な役割を総まとめ Jun 11, 2024 pm 05:29 PM

上記および著者の個人的な理解: 最近、ディープラーニング技術の発展と進歩により、大規模な基盤モデル (Foundation Model) が自然言語処理とコンピューター ビジョンの分野で大きな成果を上げています。自動運転における基本モデルの応用にも大きな発展の可能性があり、シナリオの理解と推論を向上させることができます。豊富な言語と視覚データの事前トレーニングを通じて、基本モデルは自動運転シナリオのさまざまな要素を理解して解釈し、推論を実行して、運転の意思決定と計画のための言語とアクションのコマンドを提供します。基本モデルは、運転シナリオを理解してデータを拡張することで、日常的な運転やデータ収集では遭遇する可能性が低い、ロングテール分布におけるまれな実現可能な機能を提供できます。

PHP フレームワークの学習曲線は他の言語フレームワークと比較してどうですか? PHP フレームワークの学習曲線は他の言語フレームワークと比較してどうですか? Jun 06, 2024 pm 12:41 PM

PHP フレームワークの学習曲線は、言語熟練度、フレームワークの複雑さ、ドキュメントの品質、コミュニティのサポートによって異なります。 PHP フレームワークの学習曲線は、Python フレームワークと比較すると高く、Ruby フレームワークと比較すると低くなります。 Java フレームワークと比較すると、PHP フレームワークの学習曲線は中程度ですが、開始までの時間は短くなります。

PHP フレームワークの軽量オプションはアプリケーションのパフォーマンスにどのような影響を与えますか? PHP フレームワークの軽量オプションはアプリケーションのパフォーマンスにどのような影響を与えますか? Jun 06, 2024 am 10:53 AM

軽量の PHP フレームワークは、サイズが小さくリソース消費が少ないため、アプリケーションのパフォーマンスが向上します。その特徴には、小型、高速起動、低メモリ使用量、改善された応答速度とスループット、および削減されたリソース消費が含まれます。 実際のケース: SlimFramework は、わずか 500 KB、高い応答性と高スループットの REST API を作成します。

Golang フレームワークのドキュメントのベスト プラクティス Golang フレームワークのドキュメントのベスト プラクティス Jun 04, 2024 pm 05:00 PM

明確で包括的なドキュメントを作成することは、Golang フレームワークにとって非常に重要です。ベスト プラクティスには、Google の Go コーディング スタイル ガイドなど、確立されたドキュメント スタイルに従うことが含まれます。見出し、小見出し、リストなどの明確な組織構造を使用し、ナビゲーションを提供します。スタート ガイド、API リファレンス、概念など、包括的で正確な情報を提供します。コード例を使用して、概念と使用法を説明します。ドキュメントを常に最新の状態に保ち、変更を追跡し、新機能を文書化します。 GitHub の問題やフォーラムなどのサポートとコミュニティ リソースを提供します。 API ドキュメントなどの実践的なサンプルを作成します。

さまざまなアプリケーションシナリオに最適な Golang フレームワークを選択する方法 さまざまなアプリケーションシナリオに最適な Golang フレームワークを選択する方法 Jun 05, 2024 pm 04:05 PM

アプリケーションのシナリオに基づいて最適な Go フレームワークを選択します。アプリケーションの種類、言語機能、パフォーマンス要件、エコシステムを考慮します。一般的な Go フレームワーク: Jin (Web アプリケーション)、Echo (Web サービス)、Fiber (高スループット)、gorm (ORM)、fasthttp (速度)。実際のケース: REST API (Fiber) の構築とデータベース (gorm) との対話。フレームワークを選択します。主要なパフォーマンスには fasthttp、柔軟な Web アプリケーションには Jin/Echo、データベース インタラクションには gorm を選択してください。

golang フレームワーク開発の実践的な詳細な説明: 質疑応答 golang フレームワーク開発の実践的な詳細な説明: 質疑応答 Jun 06, 2024 am 10:57 AM

Go フレームワーク開発における一般的な課題とその解決策は次のとおりです。 エラー処理: 管理にはエラー パッケージを使用し、エラーを一元的に処理するにはミドルウェアを使用します。認証と認可: サードパーティのライブラリを統合し、資格情報を確認するためのカスタム ミドルウェアを作成します。同時処理: ゴルーチン、ミューテックス、チャネルを使用してリソース アクセスを制御します。単体テスト: 分離のために getest パッケージ、モック、スタブを使用し、十分性を確保するためにコード カバレッジ ツールを使用します。デプロイメントとモニタリング: Docker コンテナを使用してデプロイメントをパッケージ化し、データのバックアップをセットアップし、ログ記録およびモニタリング ツールでパフォーマンスとエラーを追跡します。

See all articles