なぜ自動運転ではガウス スプラッティングが非常に人気があるのに、NeRF は放棄され始めているのでしょうか?

WBOY
リリース: 2024-01-17 14:57:05
転載
1306 人が閲覧しました

前書き&筆者の個人的理解

三次元ガウス スプラッティング (3DGS) は、近年陽光照射野やコンピュータ グラフィックスの分野で登場した革新的な技術です。この革新的な方法は、数百万の 3D ガウスを使用することを特徴とし、主に暗黙的な座標ベースのモデルを使用して空間座標をピクセル値にマッピングする神経放射線場 (NeRF) 方法とは大きく異なります。明示的なシーン表現と微分可能なレンダリング アルゴリズムにより、3D GS はリアルタイム レンダリング機能を保証するだけでなく、前例のないレベルの制御とシーン編集も導入します。これにより、3D GS は、次世代の 3D 再構築と表現における潜在的な変革をもたらすものとして位置付けられます。この目的を達成するために、私たちは 3D GS 分野における最新の開発と主要な貢献についての初めての体系的な概要を提供します。まず、3D GS の出現に関する基本原理と公式を詳細に検討し、その重要性を理解するための基礎を築きます。次に、3D GS の実用性について詳しく説明します。 3D GS は、リアルタイム パフォーマンスを促進することで、仮想現実からインタラクティブ メディアなどに至るまで、さまざまなアプリケーションの可能性を広げます。さらに、主要な 3D GS モデルの比較分析が実行され、さまざまなベンチマーク タスクで評価され、そのパフォーマンスと実用性が強調されます。このレビューは、現在の課題を特定し、この分野における将来の研究の潜在的な道筋を示唆することで締めくくられています。この調査により、私たちは新人と経験豊富な研究者の両方に貴重なリソースを提供し、放射線分野の適用可能かつ明確な表現におけるさらなる探求と進歩を刺激することを目指しています。

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

読者が 3D GS の急速な発展についていけるよう、3D GS に関する最初の調査レビューを提供します。私たちは、主に arxiv から、このトピックに関する最も重要な最新の文献を体系的かつタイムリーに収集しました。この記事の目的は、3D GS の初期開発、理論的基礎、および新たなアプリケーションに関する包括的かつ最新の分析を提供し、この分野における革新的な可能性を強調することです。 3D GS は初期ながら急速に進化しているという性質を考慮して、この調査は、この分野における現在の課題と将来の見通しを特定し、議論することも目的としています。現在進行中の研究の方向性と、3D GS が促進する可能性のある進歩についての洞察を提供します。このレビューが学術的知識を提供するだけでなく、この分野のさらなる研究と革新を刺激することが期待されます。 この記事の構成は次のとおりです (図 2)。 すべてのコンテンツは最新の文献や研究結果に基づいており、3D GS に関する包括的かつタイムリーな情報を読者に提供することを目的としていることに注意してください。

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

#背景の紹介

このセクションでは、シーン レンダリングの重要な概念である放射線場の簡単な式を紹介します。放射線場は 2 つの主なタイプで表すことができます: NeRF などの暗黙的タイプでは、直接的ではあるが計算量の多いレンダリングにニューラル ネットワークを使用します。もう 1 つはメッシュのような明示的タイプで、アクセスは高速ですがメモリの使用量は少なく、離散構造を使用します。次に、シーンの再構成やレンダリングなどの関連領域とのつながりをさらに検討します。

問題定義

放射場: 放射場は、3 次元空間における光の分布を表現したものです。環境内の表面およびマテリアルの相互作用と相互作用します。数学的には、放射線場は、空間内の点と球面座標で指定された方向を非負の放射線値にマッピングする関数として説明できます。放射線フィールドは、暗黙的表現または明示的表現によってカプセル化でき、それぞれに特定のシーン表現とレンダリング上の利点があります。

暗黙的放射フィールド:暗黙的放射フィールドは、シーンのジオメトリを明示的に定義せずに、シーン内の光の分布を表します。ディープラーニングの時代では、連続的なボリュームシーン表現を学習するためにニューラルネットワークがよく使用されます。最も顕著な例は NeRF です。 NeRF では、MLP ネットワークを使用して、一連の空間座標と視線方向を色と濃度の値にマッピングします。任意の点の放射輝度は明示的に保存されませんが、ニューラル ネットワークにクエリを実行することによってリアルタイムで計算されます。したがって、この関数は次のように記述できます。

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

この形式では、複雑なシーンをコンパクトで微分可能な表現が可能ですが、光が伝わる量によりレンダリング中の計算負荷は高くなります。 。

明示的放射フィールド: 対照的に、明示的放射フィールドは、ボクセルのグリッドや点のセットなどの離散空間構造内の光の分布を直接表します。構造内の各要素は、空間内の対応する位置の放射線情報を格納します。このアプローチにより、放射測定データへのより直接的で高速なアクセスが可能になりますが、メモリ使用量が増加し、解像度が低下する可能性があります。明示的な放射線フィールド表現の一般的な形式は次のように記述できます。

DataStructure は、視線方向に基づいて放射を変更する関数であるグリッドまたは点群にすることができます。

両方の長所 3D ガウス スプラッティング : 3D GS は、暗黙的な放射フィールドから明示的な放射フィールドへの移行を表します。柔軟かつ効率的な表現として 3D ガウスを利用することで、両方の方法の利点を活用します。これらのガウス係数は、ニューラル ネットワーク ベースの最適化と明示的な構造化データ ストレージの利点を組み合わせて、シーンを正確に表現できるように最適化されています。このハイブリッド アプローチは、特に複雑なシーンや高解像度の出力において、より高速なトレーニングとリアルタイム パフォーマンスによる高品質のレンダリングを実現することを目的としています。 3D ガウス表現は次のように定式化されます。

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

#コンテキストと用語

多くのテクノロジーと研究分野は 3D GS と密接に関連しています。以下に簡単に説明します。

シーンの再構成とレンダリング: 大まかに言えば、シーンの再構成には、画像またはその他のデータのコレクションからシーンの 3D モデルを作成することが含まれます。レンダリングは、コンピューター可読情報 (シーン内の 3D オブジェクトなど) をピクセルベースのイメージに変換することに焦点を当てた、より具体的な用語です。初期の技術は、リアルな画像を生成するライト フィールドに基づいていました。 Structure-from-Motion (SfM) およびマルチビュー ステレオ (MVS) アルゴリズムは、画像シーケンスから 3D 構造を推定することでこの分野をさらに進歩させます。これらの歴史的な手法は、より複雑なシーンの再構築およびレンダリング技術の基礎を築きました。

ニューラル レンダリングと放射フィールド: ニューラル レンダリングは、ディープ ラーニングと従来のグラフィックス技術を組み合わせて、フォトリアリスティックな画像を作成します。初期の試みでは、畳み込みニューラル ネットワーク (CNN) を使用して、ハイブリッド ウェイトまたはテクスチャ空間ソリューションを推定しました。放射フィールドは、空間内の各点を通って各方向に進む光の量を記述する関数を表します。 NeRF はニューラル ネットワークを使用して放射線場をモデル化し、詳細で現実的なシーンのレンダリングを可能にします。

ボリューム表現とレイマーチング: ボリューム表現は、ターゲットとシーンをサーフェスとしてだけでなく、マテリアルまたは空のスペースで満たされたボリュームとしてもモデル化します。この方法により、霧、煙、半透明のマテリアルなどの現象をより正確にレンダリングできます。レイ マーチングは、ボリュームを通過する光の経路を段階的に追跡することによってイメージをレンダリングするボリューム表現で使用される手法です。 NeRF は、ボリュメトリック レイ マーチングと同じ精神を共有し、重要なサンプリングと位置エンコーディングを導入して、合成画像の品質を向上させます。高品質の結果が得られる一方で、ボリューム レイの移動には計算コストがかかるため、3D GS などのより効率的な方法の探索が求められています。

ポイントベースのレンダリング: ポイントベースのレンダリングは、従来のポリゴンの代わりにポイントを使用して 3D シーンを視覚化する手法です。このアプローチは、複雑、非構造化、またはまばらな幾何学データをレンダリングする場合に特に効果的です。ポイントは、学習可能なニューラル記述子などの追加プロパティで強化し、効率的にレンダリングできますが、このアプローチでは、レンダリング時のホールやエイリアシング効果などの問題が発生する可能性があります。 3D GS は、異方性ガウスを使用してこの概念を拡張し、シーンのより連続的で一貫した表現を実現します。

明示的放射線場用の 3D ガウス

3D GS は、ニューラル コンポーネントに依存しない、リアルタイムの高解像度画像レンダリングにおける画期的な技術です。

新しい遠近合成のための 3D ガウスを学習しました

(数百万の) 最適化された 3D ガウスで表されるシーンを考えてみましょう。目標は、指定されたカメラのポーズに基づいて画像を生成することです。 NeRF は、計算を必要とする体積光線の移動、各ピクセルの 3D 空間点のサンプリングによってこのタスクを実行していることを思い出してください。このモードでは、高解像度の画像合成を実現することが難しく、リアルタイムのレンダリング速度を実現できません。まったく対照的に、3D GS は最初にこれらの 3D ガウスをピクセルベースの画像平面に投影します。これは「スプラッティング」と呼ばれるプロセスです (図 3a)。次に、3D GS はこれらのガウス分布を並べ替えて、各ピクセルの値を計算します。図に示すように、NeRF と 3D GS のレンダリングは、相互の逆プロセスとみなすことができます。以下では、3D GS におけるシーン表現の最小要素である 3D ガウスの定義から始めます。次に、これらの 3D ガウスを微分可能なレンダリングに使用する方法について説明します。最後に、高速レンダリングの鍵となる3D GSで使用されるアクセラレーション技術を紹介します。

三次元ガウスの性質: 三次元ガウスの特徴は、その中心(位置)μ、不透明度α、三次元共分散行列∑、色cです。ビューに依存する外観の場合、c は球面調和関数で表されます。すべての属性はバックプロパゲーションを通じて学習および最適化できます。

錐台カリング: 指定されたカメラ ポーズが与えられた場合、このステップでは、どの 3D ガウスがカメラの錐台の外側にあるかを決定します。こうすることで、特定のビューの外側にある 3D ガウスは後続の計算に関与しなくなり、計算リソースが節約されます。

スプラッティング: **このステップでは、レンダリングのために 3D ガウス (楕円体) が 2D 画像空間 (楕円体) に投影されます。表示変換 W と 3D 共分散行列 Σ が与えられると、投影された 2D 共分散行列 Σ' は次の式を使用して計算されます。

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

ここで、J は射影変換のアフィン近似のヤコビ行列です。

ピクセルごとのレンダリング: 3D GS の最終バージョンに入る前に、その仕組みをより深く理解するために、まずその単純な形式について詳しく説明します。 3D GS は複数のテクノロジーを利用して並列コンピューティングを促進します。ピクセルの位置が与えられると、次に、アルファ合成を使用して、そのピクセルの最終的な色が計算されます。

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

ここで、 は学習された色で、最終的な不透明度は学習された不透明度とガウス値の積です。

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

ここで、x' と μ は投影空間内の座標です。必要なソート済みリストの生成を並列化するのが難しいことを考慮すると、説明されているレンダリング プロセスは NeRF に比べて遅くなる可能性がありますが、これは正当な懸念事項です。実際、この懸念は的中しており、この単純なピクセルごとのアプローチを使用すると、レンダリング速度が大幅に影響を受ける可能性があります。リアルタイム レンダリングを実現するために、3DGS は並列コンピューティングに対応するためにいくつかの譲歩を行いました。

タイル (パッチ): 各ピクセルのガウス係数を導出する計算コストを回避するために、3D GS は精度をピクセル レベルからパッチ レベルの詳細に転送します。具体的には、3D GS は最初に画像を、元の論文では「タイル」と呼ばれる、重複しない複数のブロックに分割します。図 3b はタイルを示しています。各タイルは 16×16 ピクセルで構成されます。 3D GS はさらに、どのタイルがこれらの投影されたガウス マップと交差するかを決定します。投影されたガウスが複数のタイルをカバーすると仮定すると、論理的なアプローチは、ガウスをコピーし、各コピーに関連するタイルの識別子 (つまり、タイル ID) を割り当てることで構成されます。

並列レンダリング: コピー後、3D GS は個々のタイル ID と各ガウスのビュー変換から取得した深度値を組み合わせます。これにより、ソートされていないバイトのリストが生成されます。上位ビットはタイル ID を表し、下位ビットは深さを表します。こうすることで、ソートされたリストをレンダリング (つまり、アルファ合成) に直接使用できます。図 3c と 3d は、これらの概念を視覚的に示しています。各タイルとピクセルのレンダリングが独立して行われるため、このプロセスが並列コンピューティングに最適であることを強調する価値があります。もう 1 つの利点は、各タイルのピクセルが共通の共有メモリにアクセスし、均一な読み取りシーケンスを維持できるため、アルファ合成をより効率的に並行して実行できることです。元の論文の正式な実装では、フレームワークはタイルとピクセルの処理をそれぞれ CUDA プログラミング アーキテクチャのブロックとスレッドと同様に扱います。

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

つまり、3D GS は、高水準の画像合成品質を維持しながら、計算効率を向上させるために、前方処理段階でいくつかの近似を導入します。

3D ガウス スプラッティングの最適化

3D GS の中核となるのは、シーンの本質を正確に捉える 3D ガウスの大規模なコレクションを構築するように設計された最適化プロセスです。これにより、自由な視点レンダリングが促進されます。一方で、3D ガウスのプロパティは、特定のシーンのテクスチャに適応するように微分可能なレンダリングを通じて最適化する必要があります。一方、特定のシーンを適切に表現できる 3D ガウスの数は事前にはわかりません。有望なアプローチの 1 つは、ニューラル ネットワークに 3D ガウス密度を自動的に学習させることです。各ガウスのプロパティを最適化する方法と、ガウスの密度を制御する方法について説明します。これら 2 つのプロセスは、最適化ワークフロー内でインターリーブされます。最適化中に手動で設定されるハイパーパラメータが多数あるため、わかりやすくするためにほとんどのハイパーパラメータの記号を省略しています。

パラメータの最適化

損失関数: 画像の合成が完了すると、損失はレンダリングされた画像とレンダリングされた画像の差として計算されます。 GT:

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

3D-GS の損失関数は NeRF の損失関数とは若干異なります。レイマーチングに時間がかかるため、NeRF は通常、画像レベルではなくピクセル レベルで計算されます。

パラメータ更新: 3D ガウスのほとんどの特性は、バックプロパゲーションを通じて直接最適化できます。共分散行列 Σ を直接最適化すると、非正の半定値行列が生成され、共分散行列に通常関連付けられている物理的解釈に準拠しないことに注意してください。この問題を回避するために、3D GS は四元数 q と 3D ベクトル s を最適化することを選択します。 q と s はそれぞれ回転とスケーリングを表します。このアプローチにより、共分散行列 Σ を次のように再構築できます。

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

密度制御

初期化: 3D GS は、SfM またはランダムに初期化されたスパース ポイントの初期セットから始まります。次に、ポイント高密度化と枝刈りを使用して、3 次元ガウス分布の密度を制御します。

ポイント高密度化: ポイント高密度化ステージでは、3D GS はガウス密度を適応的に増加させて、シーンの詳細をより適切にキャプチャします。このプロセスでは、幾何学的特徴が欠落している領域、またはガウス分布が散在しすぎる領域に特に注意を払います。高密度化は、大きなビュー空間位置勾配 (つまり、特定のしきい値を超える) を示すガウスをターゲットとして、一定回数の反復後に実行されます。これには、再構築が不十分な領域で小さなガウスをクローン化するか、再構築が過剰な領域で大きなガウスを分割することが含まれます。クローン作成の場合、ガウスのコピーが作成され、位置勾配に向かって移動されます。分割の場合、2 つの小さなガウスが 1 つの大きなガウスを置き換え、特定の係数でサイズが縮小されます。このステップでは、3D 空間でのガウス分布の最適な分布と表現を追求し、それによって再構成の全体的な品質が向上します。

点枝刈り: 点枝刈り段階では、冗長なガウス分布や影響力の低いガウス分布の除去が含まれます。これは、ある程度正則化プロセスとみなすことができます。このステップは、ほぼ透明なガウス (α が指定されたしきい値を下回る) およびワールド空間またはビュー空間で大きすぎるガウスを除去することによって実行されます。さらに、入力カメラ付近のガウス密度の不当な増加を防ぐために、一定回数の反復後にガウスのアルファ値がゼロに近く設定されます。これにより、余分なガウスを除去しながら、必要なガウス密度の増加を制御することができます。このプロセスは、計算リソースの節約に役立つだけでなく、モデル内のガウス分布によるシーンの表現が正確かつ効率的に維持されることを保証します。

アプリケーション分野とタスク

3D GS の変革の可能性は、理論的および計算上の進歩をはるかに超えています。このセクションでは、ロボット工学、シーンの再構成と表現、AI 生成コンテンツ、自動運転、さらにはその他の科学分野など、3D GS が大きな影響を与えているさまざまな先駆的な応用分野を詳しく掘り下げます。 3D GS の応用は、その多用途性と革新的な可能性を実証します。ここでは、最も注目すべきアプリケーション分野のいくつかを概説し、3D GS が各分野でどのように新たなフロンティアを形成しているかについての洞察を提供します。

SLAM

SLAM は、ロボット工学および自律システムにおける中心的な計算問題です。これには、環境のレイアウトをマッピングしながら、未知の環境におけるロボットまたはデバイスの位置を理解するという課題が含まれます。 SLAM は、自動運転車、拡張現実、ロボット ナビゲーションなどのさまざまなアプリケーションで重要です。 SLAM の核心は、未知の環境のマップを作成し、マップ上のデバイスの位置をリアルタイムで特定することです。したがって、SLAM は、計算集約的なシーン表現テクノロジに大きな課題をもたらし、3D GS の優れたテストベッドでもあります。

3D GS は、革新的なシーン表現手法として SLAM 分野に参入します。従来の SLAM システムは通常、環境を表すために点/面クラウドまたはボクセル メッシュを使用します。対照的に、3D GS は異方性ガウスを利用して環境をより適切に表現します。この表現にはいくつかの利点があります。 1) 効率: 3D ガウス分布の密度を適応的に制御して、空間データをコンパクトに表現し、計算負荷を軽減します。 2) 精度: 異方性ガウスにより、より詳細で正確な環境モデリングが可能になり、特に複雑なシーンや動的に変化するシーンに適しています。 3) 適応性: 3D GS はさまざまな規模や複雑な環境に適応できるため、さまざまな SLAM アプリケーションに適しています。いくつかの革新的な研究では、SLAM で 3D ガウス スプラッシュを使用し、このパラダイムの可能性と多用途性を実証しています。

ダイナミック シーン モデリング

ダイナミック シーン モデリングとは、時間の経過とともに変化するシーンの 3 次元構造と外観をキャプチャして表現するプロセスを指します。これには、シーン内のオブジェクトの形状、動き、視覚的側面を正確に反映するデジタル モデルの作成が含まれます。ダイナミック シーン モデリングは、仮想現実や拡張現実、3D アニメーション、コンピュータ ビジョンなどのさまざまなアプリケーションで重要です。 4D ガウス散乱 (4D GS) は、3D GS の概念を動的なシーンに拡張します。時間的な次元が組み込まれており、時間の経過とともに変化するシーンの表現とレンダリングが可能になります。このパラダイムにより、高品質のビジュアル出力を維持しながら、リアルタイムでの動的シーンのレンダリングが大幅に向上します。

AIGC

AIGC とは、特にコンピューター ビジョン、自然言語処理、機械学習の分野で、人工知能システムによって自律的に作成または大幅に変更されるデジタル コンテンツを指します。 AIGC は、人工的に生成されたコンテンツをシミュレート、拡張、強化する機能を特徴としており、フォトリアリスティックな画像合成から動的な物語の作成に至るまでのアプリケーションを可能にします。 AIGC の重要性は、エンターテインメント、教育、技術開発など、さまざまな分野での変革の可能性にあります。これは、進化するデジタル コンテンツ作成環境における重要な要素であり、従来の方法に代わる、スケーラブルでカスタマイズ可能で、多くの場合より効率的な代替手段を提供します。

3D GS のこの明確な機能により、リアルタイム レンダリング機能と前例のないレベルの制御と編集が容易になり、AIGC アプリケーションとの関連性が高まります。 3D GS の明示的なシーン表現と微分可能なレンダリング アルゴリズムは、仮想現実、インタラクティブ メディア、その他の分野のアプリケーションにとって重要な、忠実度の高いリアルタイムの編集可能なコンテンツを生成するための AIGC の要件を完全に満たしています。

自動運転

自動運転は、人間の介入なしに車両がナビゲーションおよび操作できるように設計されています。これらの車両には、カメラ、LiDAR、レーダーなどの一連のセンサーが装備されており、高度なアルゴリズム、機械学習モデル、強力なコンピューティング能力と組み合わされています。中心的な目標は、環境を感知し、情報に基づいた意思決定を行い、安全かつ効率的に作戦を実行することです。自動運転には交通手段を変革する可能性があり、人的ミスの削減による交通安全の向上、運転できない人の移動性の向上、交通の流れの最適化による渋滞や環境への影響の軽減など、重要な利点がもたらされます。

自動運転車は安全に運転するために周囲の環境を感知して解釈する必要があります。これには、リアルタイムでの運転シーンの再構築、静的および動的オブジェクトの正確な識別、それらの空間的関係と動きの理解が含まれます。動的な運転シナリオでは、他の車両、歩行者、動物などの移動物体によって環境が常に変化します。これらのシーンをリアルタイムで正確に再構成することは、安全なナビゲーションにとって重要ですが、関係する要素の複雑さと多様性により困難です。自動運転では、3D GS を使用して、LiDAR などのセンサーから取得したデータ ポイントを結合した連続的な表現にブレンドすることでシーンを再構築できます。これは、さまざまな密度のデータ ポイントを処理し、シーン内の静的な背景と動的なオブジェクトをスムーズかつ正確に再構築する場合に特に役立ちます。これまでのところ、3D ガウスを使用してダイナミックな運転/街路シーンをモデル化し、既存の手法と比較してシーンの再構築において優れたパフォーマンスを示している作品はほとんどありません。

パフォーマンスの比較

このセクションでは、以前に説明したいくつかの 3D GS アルゴリズムのパフォーマンスを示すことで、より経験的な証拠を提供します。多くのタスクにおける 3D GS の多様なアプリケーションと、タスクごとにカスタマイズされたアルゴリズム設計が相まって、単一のタスクまたはデータセット内ですべての 3D GS アルゴリズムを一律に比較することは非現実的です。したがって、詳細なパフォーマンス評価のために、3D GS 分野の 3 つの代表的なタスクを選択します。特に明記されていない限り、パフォーマンスは主にオリジナルの論文に基づいています。

位置決めパフォーマンス

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

静的シーンのレンダリング パフォーマンス

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

ダイナミック シーンのレンダリング パフォーマンス

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

ドライビング シーンのレンダリング パフォーマンス

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

#デジタル ヒューマン パフォーマンス

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

今後の研究の方向性

3D とはいえその後の取り組みon GS は大きく進歩しましたが、まだ克服すべき課題がいくつかあると考えています。

  • データ効率の高い 3D GS ソリューション: 限られたデータ ポイントから新しいビューを生成し、シーンを再構成することは、特に最小限の入力でリアリズムとユーザー エクスペリエンスを向上させる可能性があるため、非常に興味深いものです。最近の進歩では、この機能を促進するために、深さ情報、密な確率分布、およびピクセルからガウスへのマッピングの使用が検討されています。しかし、この分野でのさらなる探査は依然として緊急に必要とされています。さらに、3D GS の大きな問題は、観測データが不十分な領域でアーティファクトが発生することです。データがまばらであると再構成が不正確になることが多いため、この課題は放射線野レンダリングにおける一般的な制限です。したがって、これらの疎な領域での新しいデータ補間または統合方法を開発することは、将来の研究にとって有望な手段となります。
  • メモリ効率の高い 3D GS ソリューション: 3D GS は並外れた機能を発揮しますが、そのスケーラビリティは、特に NeRF ベースのメソッドと併用した場合に重大な課題を引き起こします。後者には、学習された MLP のパラメーターのみを保存するという単純さの利点があります。このスケーラビリティの問題は、計算要件とメモリ要件が大幅に増加する大規模なシーン管理の状況ではますます深刻になります。したがって、トレーニング段階およびモデルの保存中のメモリ使用率を最適化することが緊急に必要です。より効率的なデータ構造を探索し、高度な圧縮技術を調査することは、これらの制限に対処するための有望な手段となります。
  • 高度なレンダリング アルゴリズム: 3D GS の現在のレンダリング パイプラインは前進しており、さらに最適化することができます。たとえば、単純な可視性アルゴリズムにより、ガウス深度/ブレンド順序が大幅に切り替わる可能性があります。これは、より高度なレンダリング アルゴリズムの実装という、将来の研究にとって重要な機会を浮き彫りにします。これらの改良された手法は、特定のシーンにおける光とマテリアルの特性の複雑な相互作用をより正確にシミュレートすることを目的としています。有望なアプローチには、従来のコンピュータ グラフィックスから確立された原則を 3D GS の特定のコンテキストに同化および適応させることが含まれる可能性があります。この点で注目に値するのは、強化されたレンダリング技術またはハイブリッド モデルを現在の 3D GS の計算フレームワークに統合する継続的な取り組みです。さらに、逆レンダリングとその応用の探求は、研究の肥沃な土壌を提供します。
  • 最適化と正則化: 異方性ガウスは複雑な幾何学的形状を表現するのに適していますが、視覚的なアーチファクトが生じる可能性があります。たとえば、これらの大きな 3D ガウスは、特にビューに依存する外観を持つ領域で、視覚要素が突然現れたり消えたりして没入感を損なうポップイン アーティファクトを引き起こす可能性があります。 3D GS の正則化と最適化には、大きな可能性が秘められています。アンチエイリアシングを導入すると、ガウスの深さとブレンド順序の突然の変化を軽減できます。最適化アルゴリズムの機能強化により、空間内のガウス係数をより適切に制御できる可能性があります。さらに、最適化プロセスに正則化を組み込むことで、収束を高速化し、視覚的なノイズを滑らかにし、画質を向上させることができます。さらに、このような多数のハイパーパラメータは 3D GS の一般化に影響を与えるため、早急に解決策が必要です。
  • メッシュ再構成における 3D ガウス: メッシュ再構成における 3D GS の可能性と、ボリュームおよびサーフェス表現のスペクトルにおけるその位置はまだ十分に調査されていません。ガウス プリミティブがメッシュ再構成タスクにどのように適しているかを研究することが緊急に必要です。この調査により、ボリューム レンダリングと従来のサーフェスベースの手法との間のギャップを埋めることができ、新しいレンダリング技術とアプリケーションへの洞察が得られる可能性があります。
  • さらなる可能性で 3D GS を強化: 3D GS には大きな可能性があるにもかかわらず、3D GS のアプリケーションの全範囲はほとんど解明されていないままです。検討すべき有望な手段の 1 つは、特定のアプリケーションに合わせた言語特性や物理特性などの追加特性を使用して 3D ガウスを強化することです。さらに、最近の研究では、カメラの姿勢推定、手とオブジェクトの相互作用のキャプチャ、不確実性の定量化など、いくつかの分野で 3D GS の機能が明らかになり始めています。これらの予備的な発見は、学際的な学者が 3D GS をさらに研究するための重要な機会を提供します。

結論

私たちの知る限り、このレビューは、革新的な明示的放射線場およびコンピュータ グラフィックス テクノロジである 3D GS の最初の包括的な概要を提供します。これは、従来の NeRF 手法からのパラダイム シフトを示しており、リアルタイム レンダリングと強化された制御性における 3D GS の利点を強調しています。当社の詳細な分析により、実世界のアプリケーション、特にリアルタイム パフォーマンスが必要なアプリケーションにおける 3D GS の利点が実証されています。私たちは、将来の研究の方向性とこの分野の未解決の課題についての洞察を提供します。全体として、3D GS は、3D 再構成と表現の将来の開発に大きな影響を与えることが期待される革新的なテクノロジーです。この調査は、この急速に発展している分野でのさらなる探求と進歩を推進するための基礎的なリソースとして機能することを目的としています。

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

元のリンク: https://mp.weixin.qq.com/s/jH4g4Cx87nPUYN8iKaKcBA

以上がなぜ自動運転ではガウス スプラッティングが非常に人気があるのに、NeRF は放棄され始めているのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート