目次
論文のアイデア:
主な貢献:
Web デザイン:
実験結果:
概要:
引用:
ホームページ テクノロジー周辺機器 AI CVPR 2024 | フォトリアルなシーン生成のための LiDAR 拡散モデル

CVPR 2024 | フォトリアルなシーン生成のための LiDAR 拡散モデル

Apr 24, 2024 pm 04:28 PM
git モデル レーダー ロボット技術

元のタイトル: Towards Realistic Sc​​ene Generation with LiDAR Diffusion Models

ペーパーリンク: https://hancyran.github.io/assets/paper/lidar_diffusion.pdf

コードリンク: https://lidar-diffusion.github. io

著者の所属: CMU Toyota Research Institute 南カリフォルニア大学

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

論文のアイデア:

拡散モデル (DM) はフォトリアリスティックな画像合成に優れていますが、LIDAR シーンの生成に適応させます 存在は大きな課題に直面しています。これは主に、点空間で動作する DM が LIDAR シーンの曲線パターンと 3 次元特性を維持することが難しく、表現能力のほとんどが消費されるためです。この論文では、学習プロセスに幾何学的圧縮を組み込むことで現実世界の LiDAR シナリオをシミュレートする LiDAR 拡散モデル (LiDM) を提案します。このペーパーでは、現実世界の LIDAR パターンをシミュレートするための曲線圧縮と、完全な 3D オブジェクト コンテキストを取得するためのパッチごとのエンコーディングを紹介します。この論文では、これら 3 つのコア設計を使用して、ポイントベースの DM と比較して高い効率 (最大 107 倍高速) を維持しながら、無条件 LIDAR 生成シナリオで新しい SOTA を確立します。さらに、この論文では、LIDAR シーンを潜在空間に圧縮することで、DM がセマンティック マップ、カメラ ビュー、テキスト キューなどのさまざまな条件下で制御できるようにします。

主な貢献:

この論文は、任意の入力条件に基づいて現実的な LIDAR シーンを生成できる生成モデルである、新しい Laser Dart Diffusion Model (LiDM) を提案します。私たちの知る限り、これはマルチモーダルな条件から LIDAR シーンを生成できる最初の方法です。

この論文では、現実的なレーザー パターンを維持するためのカーブ レベルの圧縮、シーン レベルのジオメトリのモデルを標準化するためのポイント レベルの座標監視、および 3D オブジェクトのコンテキストを完全にキャプチャするためのブロック レベルのエンコーディングを紹介します。

この論文では、距離画像、疎ボリューム、点群などのさまざまな表現を比較しながら、知覚空間で生成されたレーザーシーンの品質を包括的かつ定量的に評価するための 3 つの指標を紹介します。

この記事の手法は、64 ラインの LIDAR シーンを使用した無条件シーン合成の最新レベルを達成し、ポイントベースの拡散モデルと比較して最大 107 倍の高速化を達成しました。

Web デザイン:

近年、視覚的に魅力的で非常に現実的な画像を生成できる条件付き生成モデルが急速に開発されています。これらのモデルの中でも、拡散モデル (DM) は、その非の打ちどころのないパフォーマンスにより、最も人気のある手法の 1 つとなっています。任意の条件下で生成を実現するために、潜在拡散モデル (LDM) [51] はクロスアテンション メカニズムと畳み込みオートエンコーダーを組み合わせて高解像度画像を生成します。その後の拡張機能 (Stable Diffusion [2]、Midjourney [1]、ControlNet [72] など) により、条件付き画像合成の可能性がさらに強化されました。

この成功は、この記事の考えを引き起こしました: 制御可能な拡散モデル (DM) を自動運転とロボット工学における LIDAR シーン生成に適用できるか?たとえば、一連の境界ボックスが与えられた場合、これらのモデルは対応する LIDAR シーンを合成し、それによってこれらの境界ボックスを高品質で高価なアノテーション データに変換できますか?あるいは、一連の画像だけから 3D シーンを生成することは可能ですか?さらに野心的なのは、制御されたシミュレーション用の言語駆動型 LIDAR ジェネレーターを設計できないか?これらの絡み合った質問に答えるために、このペーパーの目標は、複数の条件 (レイアウト、カメラ ビュー、テキストなど) を組み合わせて現実的な LIDAR シーンを生成できる拡散モデルを設計することです。

この目的を達成するために、この記事では、自動運転分野における普及モデル (DM) に関する最近の研究からいくつかの洞察を引き出します。 [75] では、無条件 LIDAR シーン生成のためにポイントベースの拡散モデル (つまり、LiDARGen) が導入されています。ただし、このモデルでは、多くの場合、ノイズの多い背景 (道路、壁など) やぼやけたオブジェクト (車など) が生成され、現実からかけ離れた LIDAR シーンが生成されます (図 1 を参照)。さらに、圧縮を行わずにポイントを拡散すると、推論プロセスの計算が遅くなります。さらに、パッチベースの拡散モデル (すなわち、潜在拡散 [51]) を LIDAR シーンの生成に直接適用すると、定性的および定量的に満足のいくパフォーマンスを達成できません (図 1 を参照)。

条件付きの現実的な LIDAR シーン生成を実現するために、この論文では、上記の質問に答え、最近の研究の欠点に対処する LIDAR 拡散モデル (LiDM) と呼ばれる曲線ベースのジェネレーターを提案します。 LiDM は、境界ボックス、カメラ画像、セマンティック マップなどの任意の条件を処理できます。 LiDM は、LiDAR シーン表現として距離画像を利用します。これは、検出 [34、43]、セマンティック セグメンテーション [44、66]、生成 [75] などのさまざまな下流タスクで非常に一般的です。この選択は、距離画像と点群間の可逆的かつロスレス変換と、高度に最適化された 2D 畳み込み演算から得られる重要な利点に基づいています。拡散プロセス中に LIDAR シーンの意味的および概念的な本質を把握するために、私たちの方法では、拡散プロセスの前に LIDAR シーンのエンコード点を知覚的に等価な潜在空間に変換します。

現実世界の LIDAR データの現実的なシミュレーションをさらに改善するために、この記事では、パターンの信頼性、幾何学的信頼性、オブジェクトの信頼性という 3 つの主要なコンポーネントに焦点を当てます。まず、この論文では、自動エンコード中に点の曲線パターンを維持するために曲線圧縮を利用していますが、これは [59] からインスピレーションを得ています。次に、幾何学的信頼性を達成するために、この論文ではポイントレベルの座標監視を導入して、オートエンコーダにシーンレベルの幾何学的構造を理解するよう教えます。最後に、ブロックレベルのダウンサンプリング戦略を追加して受容野を拡張し、視覚的により大きなオブジェクトの完全なコンテキストをキャプチャします。これらの提案されたモジュールによって強化された結果の知覚空間により、拡散モデルは高品質の LIDAR シーンを効率的に合成できるようになり (図 1 を参照)、ポイントベースの拡散モデル (NVIDIA 107x で評価) と比較して速度の点でも優れたパフォーマンスを発揮します。 RTX 3090) をサポートし、あらゆるタイプのイメージベースおよびトークンベースの条件をサポートします。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

図 1. 私たちの方法 (LiDM) は、無条件 LiDAR リアル シーン生成における新しい SOTA を確立し、さまざまな入力モダリティから条件付き LiDAR シーンを生成する方向へのマイルストーンをマークします。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

図 2. LiDAR 圧縮 (セクション 3.3 および 3.5 を参照)、マルチモーダル条件付け (セクション 3.4 を参照)、および LiDAR 拡散 (セクション 3.5 を参照) の 3 つの部分を含む 64 ライン データの LiDM の概要。

実験結果:

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

図 3. 64 行シナリオにおける LiDARGen [75]、Latent Diffusion [51]、およびこの論文による LiDM の例。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

図 4. この記事の 32 行シナリオにおける LiDM の例。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

図 5. SemanticKITTI [5] データセットでのセマンティック マップからライダーへの生成のためのこの記事の LiDM の例。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

図 6. KITTI-360 [37] データセットでの条件付きカメラからライダーへの生成のための LiDM の例。オレンジ色のボックスは、入力画像によってカバーされる領域を示します。 KITTI-360 は、シーンごとに、シーンの一部のみをカバーする視点を提供します。したがって、LiDM は、カメラでカバーされる領域に対して条件付き生成を実行し、残りの未観察領域に対して無条件生成を実行します。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

図 7. 64 ライン シナリオでのゼロショット テキストからライダーへの生成のための LiDM の例。オレンジ色の破線で囲まれた領域は条件の影響を受ける領域を表し、緑色のボックスはキュー ワードに関連付けられている可能性のあるオブジェクトを強調表示します。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

図 8. 全体的なスケーリング係数 ( ) とサンプリング品質 (FRID および FSVD) の関係。このペーパーでは、KITTI-360 のさまざまなスケールで、カーブ レベル コーディング (Curve)、​​ブロック レベル コーディング (Patch)、およびブロック レベル コーディングの 1 (C+1P) ステージまたは 2 (C+2P) ステージのカーブを比較します [ 37] レベルのエンコード。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

図 9. セクション 3.3 で提案されている、ポイントレベルの監視がある場合とない場合の LiDM の例。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

概要:

このペーパーでは、LiDAR シーン生成のための一般的な条件付きフレームワークである LiDAR 拡散モデル (LiDM) を提案します。この記事の設計は、シーン レベルとオブジェクト レベルの曲線パターンと幾何学的構造を保持することに重点を置き、拡散モデルの効率的な潜在空間を設計して、現実的な LIDAR の生成を実現します。この設計により、この論文の LiDM は 64 ライン シナリオでの無条件生成で競争力のあるパフォーマンスを達成し、セマンティック マップを含むさまざまな条件を使用して条件付き生成で最先端のレベルに達することができます。 、カメラビューとテキストプロンプト。私たちの知る限り、私たちの方法は LIDAR 生成に条件を導入することに成功した最初のものです。

引用:

@inproceedings{ran2024towards,
title={LiDAR 拡散モデルによるリアルなシーン生成に向けて},
author={Ran、Haoxi と Guizilini、Vitor と Wang、Yue}、
booktitle={Proceedingsコンピューター ビジョンとパターン認識に関する IEEE/CVF 会議の

以上がCVPR 2024 | フォトリアルなシーン生成のための LiDAR 拡散モデルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

DeepSeekをインストールする方法 DeepSeekをインストールする方法 Feb 19, 2025 pm 05:48 PM

DeepSeekをインストールするには、Dockerコンテナ(最も便利な場合は、互換性について心配する必要はありません)を使用して、事前コンパイルパッケージ(Windowsユーザー向け)を使用してソースからコンパイル(経験豊富な開発者向け)を含む多くの方法があります。公式文書は慎重に文書化され、不必要なトラブルを避けるために完全に準備します。

DeepSeek使用のためのFAQの概要 DeepSeek使用のためのFAQの概要 Feb 19, 2025 pm 03:45 PM

Deepseekai ToolユーザーガイドとFAQ Deepseekは、強力なAIインテリジェントツールです。 FAQ:異なるアクセス方法の違い:Webバージョン、アプリバージョン、API呼び出しの間に機能に違いはありません。アプリは、Webバージョンのラッパーにすぎません。ローカル展開は蒸留モデルを使用します。これは、DeepSeek-R1のフルバージョンよりもわずかに劣っていますが、32ビットモデルには理論的には90%のフルバージョン機能があります。居酒屋とは何ですか? Sillytavernは、APIまたはOllamaを介してAIモデルを呼び出す必要があるフロントエンドインターフェイスです。壊れた制限とは何ですか

AIツールとは何ですか? AIツールとは何ですか? Nov 29, 2024 am 11:11 AM

AI ツールには、Doubao、ChatGPT、Gemini、BlenderBot などが含まれます。

Grayscale Encryption Trust Fundsとは何ですか? Grayscale Encryption Trust Fundsとは何ですか? Mar 05, 2025 pm 12:33 PM

グレイスケール投資:機関投資家が機関や投資家にデジタル通貨投資サービスを提供するための機関投資家が入国します。同社はいくつかの暗号信託を立ち上げました。これは広範な市場の注目を集めていますが、これらの資金のトークン価格に対する影響は大きく異なります。この記事では、Grayscaleの主要なCrypto Trust Fundsの一部を詳細に紹介します。 Grayscale Major Crypto Trust Fundsは、Grayscale Investment(2013年にDigitalCurrencyGroupによって設立された)で利用可能なさまざまなCrypto Asset Trust Fundsを管理し、機関投資家と順応の高い個人を提供する投資チャネルを提供します。その主な資金には、ZCASH(ZEC)、SOL、

トップマーケットメーカーが暗号市場に参入すると、キャッスル証券は業界にどのような影響を与えますか? トップマーケットメーカーが暗号市場に参入すると、キャッスル証券は業界にどのような影響を与えますか? Mar 04, 2025 pm 08:03 PM

トップマーケットメーカーのキャッスル証券のビットコインマーケットメーカーへの参入は、ビットコイン市場の成熟度の象徴であり、将来の資産価格設定力を競うための従来の金融勢力の重要なステップです。ブルームバーグによると、2月25日、シタデル証券は暗号通貨の流動性プロバイダーになろうとしています。同社は、Coinbaseglobal、Binanceholdings、Crypto.comが運営する取引所など、さまざまな取引所でマーケットメーカーのリストに参加することを目指していると、この問題に精通している人々は述べています。取引所によって承認されると、当社は当初、米国外にマーケットメーカーチームを設立することを計画していました。この動きは標識だけではありません

Delphi Digital:新しいElizaos V2アーキテクチャを解析することにより、新しいAIエコノミーを変更する方法は? Delphi Digital:新しいElizaos V2アーキテクチャを解析することにより、新しいAIエコノミーを変更する方法は? Mar 04, 2025 pm 07:00 PM

ElizaOSV2:AIのエンパワーメントAIは、補助ツールから独立したエンティティに進化しています。この記事では、ElizaOSV2の主要な革新と、AI主導の将来の経済をどのように形成するかについて説明します。 AIオートメーション:Elizaosを独立して操作することは、もともとWeb3オートメーションに焦点を当てたAIフレームワークでした。 V1バージョンを使用すると、AIはスマートコントラクトとブロックチェーンデータと対話できますが、V2バージョンは大幅なパフォーマンスの改善を実現します。単純な指示を実行する代わりに、AIはワークフローを独立して管理し、ビジネスを運営し、財務戦略を開発することができます。アーキテクチャのアップグレード:強化a

SFTを大幅に超えて、O1/DeepSeek-R1の背後にある秘密は、マルチモーダルの大規模モデルでも使用できます SFTを大幅に超えて、O1/DeepSeek-R1の背後にある秘密は、マルチモーダルの大規模モデルでも使用できます Mar 12, 2025 pm 01:03 PM

上海ジョトン大学、上海アイラブ、および香港中国大学の研究者は、Visual Language Big Model(LVLM)のパフォーマンスを大幅に改善するために少量のデータのみを必要とする視覚RFT(視覚エンハンスメントファインチューニング)オープンソースプロジェクトを開始しました。 Visual-RFTは、DeepSeek-R1のルールベースの強化学習アプローチとOpenAIの強化微調整(RFT)パラダイムを巧みに組み合わせて、このアプローチをテキストフィールドから視野に拡張しました。視覚的サブカテゴリ化やオブジェクト検出などのタスクの対応するルール報酬を設計することにより、Visual-RFTは、テキスト、数学的推論、その他のフィールドに限定されているDeepSeek-R1メソッドの制限を克服し、LVLMトレーニングの新しい方法を提供します。 Vis

Tesla Muskは、初めて6億ドルのビットコインブック収益を認識しています Tesla Muskは、初めて6億ドルのビットコインブック収益を認識しています Mar 05, 2025 am 10:30 AM

テスラは今朝第4四半期の収益をリリースし、第4四半期の利益と収益がアナリストの期待よりも低く、CEOのマスクは再びFSDの無人運転のビジョンを強調しました。テスラはまた、ビットコインの未実現の利益を初めて認識し、合計6億ドルの本のリターンを記録しました。テスラの第4四半期の利益と収益は、両方とも予想を下回りました。自動車の収益は、前年の215億6,000万ドルから8%減少して198億ドルで、規制当局のクレジットから6億9,200万ドルが届きました。同社は、モデル3、モデルY、モデルS、モデルXシリーズ製品の平均販売価格の低下が収益の減少の主な理由であると述べました。

See all articles