OccNeRF: LIDAR データの監視はまったく必要ありません

WBOY
リリース: 2024-02-07 21:57:13
転載
435 人が閲覧しました

以前書いた&筆者の個人的要約

近年、自動運転分野における 3D 乗員予測タスクは、その独特な特徴から学界や産業界で広く研究されています。利点に焦点を当てます。このタスクは、周囲環境の 3D 構造を再構築することにより、自動運転の計画とナビゲーションのための詳細な情報を提供します。ただし、現在の主流の方法のほとんどは、ネットワーク トレーニングを監視するために、LiDAR 点群に基づいて生成されたラベルに依存しています。 最近の OccNeRF 研究で、著者らはパラメータ化された占有フィールドと呼ばれる自己監視型マルチカメラ占有予測方法を提案しました。この方法は、屋外シーンにおける境界の無さの問題を解決し、サンプリング戦略を再編成します。次に、ボリューム レンダリング (ボリューム レンダリング) テクノロジーによって、占有フィールドがマルチカメラ デプス マップに変換され、マルチフレームの測光一貫性 (測光誤差) によって管理されます。 さらに、この方法は、事前にトレーニングされた公開語彙意味セグメンテーション モデルを利用して 2D 意味ラベルを生成し、職業フィールドに意味情報を与えます。このオープンレキシコンのセマンティック セグメンテーション モデルは、シーン内のさまざまなオブジェクトをセグメント化し、各オブジェクトにセマンティック ラベルを割り当てることができます。これらのセマンティック ラベルを占有フィールドと組み合わせることで、モデルは環境をより深く理解し、より正確な予測を行うことができます。 要約すると、OccNeRF メソッドは、パラメーター化された占有フィールド、ボリューム レンダリング、およびマルチフレームのフォトメトリック一貫性とオープンボキャブラリーのセマンティック セグメンテーション モデルを組み合わせて使用​​することにより、自動運転シナリオにおける高精度の占有予測を実現します。この手法により、自動運転システムにより多くの環境情報が提供され、自動運転の安全性・信頼性の向上が期待されます。

OccNeRF: LIDAR データの監視はまったく必要ありません

  • 論文リンク: https://arxiv.org/pdf/2312.09243.pdf
  • コードリンク: https://github.com /LinShan-Bin/OccNeRF

OccNeRF 問題の背景

近年、人工知能技術の急速な発展に伴い、人工知能技術の進歩は大きく進んでいます。自動運転の分野。 3D 認識は自動運転の基礎であり、その後の計画や意思決定に必要な情報を提供します。従来の方法では、LIDAR は正確な 3D データを直接キャプチャできますが、センサーのコストが高く、スキャンポイントがまばらなため、実用化は制限されています。対照的に、画像ベースの 3D センシング方法は低コストで効果的であるため、ますます注目を集めています。マルチカメラ 3Dオブジェクト検出は、しばらくの間、3Dシーン理解タスクの主流でしたが、現実世界の無限のカテゴリに対応できず、データロングテール分布の影響##の影響を受けます。

3D 占有予測は、マルチビュー入力を通じて周囲のシーンのジオメトリを直接再構築することで、これらの欠点を十分に補うことができます。既存の手法のほとんどはモデル設計とパフォーマンスの最適化に焦点を当てており、LiDAR 点群によって生成されたラベルに依存してネットワーク トレーニングを監視しますが、これは画像ベースのシステムでは利用できません。言い換えれば、トレーニング データを収集するには高価なデータ収集車両を使用する必要があり、LiDAR 点群支援アノテーションがなければ大量の実データが無駄になるため、3D 占有予測の開発がある程度制限されます。したがって、自己監視型 3D 占有予測を探求することは、非常に価値のある方向性です。

OccNeRF アルゴリズムの詳細説明

次の図は、OccNeRF メソッドの基本プロセスを示しています。モデルはマルチカメラ画像

を入力として受け取り、最初に 2D バックボーンを使用して N 個の写真

の特徴を抽出し、次に単純な投影と双線形補間 ( で) を通じて 3D 特徴を直接取得します。パラメーター化された空間 (以下))、最後に 3D CNN ネットワークを通じて 3D 特徴を最適化し、予測結果を出力します。モデルをトレーニングするために、OccNeRF メソッドはボリューム レンダリングを通じて現在のフレームの深度マップを生成し、前後のフレームを導入して測光損失を計算します。より多くのタイミング情報を導入するために、OccNeRF は占有フィールドを使用してマルチフレーム深度マップをレンダリングし、損失関数を計算します。同時に、OccNeRF は 2D セマンティック マップも同時にレンダリングし、Open Lexicon Semantic Segmentation Model によって管理されます。

パラメータ化された占有フィールドOccNeRF: LIDAR データの監視はまったく必要ありません

パラメータ化された占有フィールドは、カメラと占有グリッドの間の

知覚範囲のギャップを解決するために提案されています

これ質問。理論的には、カメラは無限の距離にある物体を捉えることができますが、以前の占有予測モデルはより近い空間 (たとえば、40 m 以内) のみを考慮していました。教師あり手法では、モデルは教師信号に基づいて遠くの物体を無視することを学習できますが、教師なし手法では、近くの空間のみが依然として考慮されている場合、画像内に多数の範囲外の物体が存在するとマイナスの影響が生じます。最適化プロセスへの影響。影響。これに基づいて、OccNeRF はパラメーター化された占有フィールドを採用して、無制限の範囲の屋外シーンをモデル化します。

OccNeRF のパラメータ化空間は内部と外部に分かれています。内部空間は元の座標の線形マッピングであり、高解像度が維持されますが、外部空間は無限の範囲を表します。具体的には、OccNeRF は 3D 空間内の点の 座標に次の変更を加えます:

ここで、 座標です。 # は内部空間に対応する境界値を示す調整可能なパラメータであり、 も内部空間が占める割合を示す調整可能なパラメータです。パラメータ化された占有フィールドを生成する場合、OccNeRF は最初にパラメータ化された空間でサンプリングし、逆変換を通じて元の座標を取得し、次に元の座標を画像平面に投影し、最後にサンプリングと 3 次元畳み込みを通じて占有フィールドを取得します。

マルチフレーム深度推定

占有ネットワークをトレーニングするために、OccNeRF はボリューム レンダリングを使用して占有を深度マップに変換し、測光損失関数を通じてそれを監視することを選択します。サンプリング戦略は、深度マップをレンダリングするときに重要です。パラメータ化された空間で、奥行きや視差に基づいて均一にサンプリングすると、サンプリング ポイントが内部空間または外部空間で不均一に分布し、最適化プロセスに影響を及ぼします。したがって、OccNeRF は、カメラの中心が原点に近いという前提の下で、パラメータ化された空間内で均一に直接サンプリングすることを提案します。さらに、OccNeRF はトレーニング中にマルチフレーム深度マップをレンダリングおよび監視します。

下の図は、パラメータ化された空間表現を使用する利点を視覚的に示しています。 (3 行目はパラメータ化された空間を使用し、2 行目は使用しません。)

OccNeRF: LIDAR データの監視はまったく必要ありません

セマンティック ラベル生成

OccNeRF は、事前トレーニング済みの GroundedSAM (Grounding DINO) を使用します。 SAM) は 2D セマンティック ラベルを生成します。高品質のラベルを生成するために、OccNeRF は 2 つの戦略を採用しています。1 つは

cue word 最適化 で、nuScenes 内の曖昧なカテゴリを正確な説明に置き換えます。 OccNeRF では、プロンプト ワードを最適化するために 3 つの戦略が使用されます。曖昧な単語の置換 (自動車はセダンに置き換えられます)、単語間のマルチワード (人工物は建物、看板、橋に置き換えられます)、および追加情報の導入 (自転車は自転車、自転車に置き換えられます)。 2 つ目は、SAM によって与えられるピクセルごとの信頼度ではなく、Grounding DINO の検出フレームの信頼度 に基づいてカテゴリを決定することです。 OccNeRF によって生成されるセマンティック ラベル効果は次のとおりです。

OccNeRF: LIDAR データの監視はまったく必要ありません

OccNeRF 実験結果

OccNeRF は nuScenes で実験を実施し、主に多くの実験を完了しました。パースペクティブの自己監視型深度推定および 3D 占有予測タスク。

マルチビュー自己教師あり深度推定

OccNeRF の nuScenes でのマルチビュー自己教師あり深度推定のパフォーマンスを以下の表に示します。 3D モデリングに基づく OccNeRF は、2D 手法を大幅に上回り、SimpleOcc も上回っていることがわかります。これは主に、OccNeRF が屋外シーン向けにモデル化する無制限の空間範囲によるものです。

OccNeRF: LIDAR データの監視はまったく必要ありません論文内のいくつかの視覚化は次のとおりです:

OccNeRF: LIDAR データの監視はまったく必要ありません3D 占有率予測

OccNeRF in nuScenes 3D 占有予測のパフォーマンスを以下の表に示します。 OccNeRF は注釈付きデータをまったく使用しないため、そのパフォーマンスは依然として教師ありメソッドよりも遅れています。ただし、走行可能な路面や人工物などの一部のカテゴリでは、教師あり手法と同等のパフォーマンスを達成しています。

OccNeRF: LIDAR データの監視はまったく必要ありません# 記事内の視覚化の一部は次のとおりです:

OccNeRF: LIDAR データの監視はまったく必要ありません#概要

多くの自動車メーカーが LiDAR センサーを廃止しようとしている現在、ラベルのない数千の画像データをどのように活用するかが重要な問題です。そして、OccNeRF は私たちに貴重な試みをもたらしてくれました。

元のリンク: https://mp.weixin.qq.com/s/UiYEeauAGVtT0c5SB2tHEAOccNeRF: LIDAR データの監視はまったく必要ありません

以上がOccNeRF: LIDAR データの監視はまったく必要ありませんの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!