近年、自動運転分野における 3D 乗員予測タスクは、その独特な特徴から学界や産業界で広く研究されています。利点に焦点を当てます。このタスクは、周囲環境の 3D 構造を再構築することにより、自動運転の計画とナビゲーションのための詳細な情報を提供します。ただし、現在の主流の方法のほとんどは、ネットワーク トレーニングを監視するために、LiDAR 点群に基づいて生成されたラベルに依存しています。 最近の OccNeRF 研究で、著者らはパラメータ化された占有フィールドと呼ばれる自己監視型マルチカメラ占有予測方法を提案しました。この方法は、屋外シーンにおける境界の無さの問題を解決し、サンプリング戦略を再編成します。次に、ボリューム レンダリング (ボリューム レンダリング) テクノロジーによって、占有フィールドがマルチカメラ デプス マップに変換され、マルチフレームの測光一貫性 (測光誤差) によって管理されます。 さらに、この方法は、事前にトレーニングされた公開語彙意味セグメンテーション モデルを利用して 2D 意味ラベルを生成し、職業フィールドに意味情報を与えます。このオープンレキシコンのセマンティック セグメンテーション モデルは、シーン内のさまざまなオブジェクトをセグメント化し、各オブジェクトにセマンティック ラベルを割り当てることができます。これらのセマンティック ラベルを占有フィールドと組み合わせることで、モデルは環境をより深く理解し、より正確な予測を行うことができます。 要約すると、OccNeRF メソッドは、パラメーター化された占有フィールド、ボリューム レンダリング、およびマルチフレームのフォトメトリック一貫性とオープンボキャブラリーのセマンティック セグメンテーション モデルを組み合わせて使用することにより、自動運転シナリオにおける高精度の占有予測を実現します。この手法により、自動運転システムにより多くの環境情報が提供され、自動運転の安全性・信頼性の向上が期待されます。
近年、人工知能技術の急速な発展に伴い、人工知能技術の進歩は大きく進んでいます。自動運転の分野。 3D 認識は自動運転の基礎であり、その後の計画や意思決定に必要な情報を提供します。従来の方法では、LIDAR は正確な 3D データを直接キャプチャできますが、センサーのコストが高く、スキャンポイントがまばらなため、実用化は制限されています。対照的に、画像ベースの 3D センシング方法は低コストで効果的であるため、ますます注目を集めています。マルチカメラ 3Dオブジェクト検出は、しばらくの間、3Dシーン理解タスクの主流でしたが、現実世界の無限のカテゴリに対応できず、データロングテール分布の影響##の影響を受けます。
3D 占有予測は、マルチビュー入力を通じて周囲のシーンのジオメトリを直接再構築することで、これらの欠点を十分に補うことができます。既存の手法のほとんどはモデル設計とパフォーマンスの最適化に焦点を当てており、LiDAR 点群によって生成されたラベルに依存してネットワーク トレーニングを監視しますが、これは画像ベースのシステムでは利用できません。言い換えれば、トレーニング データを収集するには高価なデータ収集車両を使用する必要があり、LiDAR 点群支援アノテーションがなければ大量の実データが無駄になるため、3D 占有予測の開発がある程度制限されます。したがって、自己監視型 3D 占有予測を探求することは、非常に価値のある方向性です。OccNeRF アルゴリズムの詳細説明
の特徴を抽出し、次に単純な投影と双線形補間 ( で) を通じて 3D 特徴を直接取得します。パラメーター化された空間 (以下))、最後に 3D CNN ネットワークを通じて 3D 特徴を最適化し、予測結果を出力します。モデルをトレーニングするために、OccNeRF メソッドはボリューム レンダリングを通じて現在のフレームの深度マップを生成し、前後のフレームを導入して測光損失を計算します。より多くのタイミング情報を導入するために、OccNeRF は占有フィールドを使用してマルチフレーム深度マップをレンダリングし、損失関数を計算します。同時に、OccNeRF は 2D セマンティック マップも同時にレンダリングし、Open Lexicon Semantic Segmentation Model によって管理されます。
パラメータ化された占有フィールド
パラメータ化された占有フィールドは、カメラと占有グリッドの間の
OccNeRF のパラメータ化空間は内部と外部に分かれています。内部空間は元の座標の線形マッピングであり、高解像度が維持されますが、外部空間は無限の範囲を表します。具体的には、OccNeRF は 3D 空間内の点の 座標に次の変更を加えます:
ここで、 は 座標です。 # は内部空間に対応する境界値を示す調整可能なパラメータであり、 も内部空間が占める割合を示す調整可能なパラメータです。パラメータ化された占有フィールドを生成する場合、OccNeRF は最初にパラメータ化された空間でサンプリングし、逆変換を通じて元の座標を取得し、次に元の座標を画像平面に投影し、最後にサンプリングと 3 次元畳み込みを通じて占有フィールドを取得します。
マルチフレーム深度推定占有ネットワークをトレーニングするために、OccNeRF はボリューム レンダリングを使用して占有を深度マップに変換し、測光損失関数を通じてそれを監視することを選択します。サンプリング戦略は、深度マップをレンダリングするときに重要です。パラメータ化された空間で、奥行きや視差に基づいて均一にサンプリングすると、サンプリング ポイントが内部空間または外部空間で不均一に分布し、最適化プロセスに影響を及ぼします。したがって、OccNeRF は、カメラの中心が原点に近いという前提の下で、パラメータ化された空間内で均一に直接サンプリングすることを提案します。さらに、OccNeRF はトレーニング中にマルチフレーム深度マップをレンダリングおよび監視します。 下の図は、パラメータ化された空間表現を使用する利点を視覚的に示しています。 (3 行目はパラメータ化された空間を使用し、2 行目は使用しません。) セマンティック ラベル生成OccNeRF は、事前トレーニング済みの GroundedSAM (Grounding DINO) を使用します。 SAM) は 2D セマンティック ラベルを生成します。高品質のラベルを生成するために、OccNeRF は 2 つの戦略を採用しています。1 つはcue word 最適化 で、nuScenes 内の曖昧なカテゴリを正確な説明に置き換えます。 OccNeRF では、プロンプト ワードを最適化するために 3 つの戦略が使用されます。曖昧な単語の置換 (自動車はセダンに置き換えられます)、単語間のマルチワード (人工物は建物、看板、橋に置き換えられます)、および追加情報の導入 (自転車は自転車、自転車に置き換えられます)。 2 つ目は、SAM によって与えられるピクセルごとの信頼度ではなく、Grounding DINO の検出フレームの信頼度 に基づいてカテゴリを決定することです。 OccNeRF によって生成されるセマンティック ラベル効果は次のとおりです。
OccNeRF 実験結果マルチビュー自己教師あり深度推定
論文内のいくつかの視覚化は次のとおりです:
3D 占有率予測
# 記事内の視覚化の一部は次のとおりです:
#概要
元のリンク: https://mp.weixin.qq.com/s/UiYEeauAGVtT0c5SB2tHEA
以上がOccNeRF: LIDAR データの監視はまったく必要ありませんの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。