参考論文の概要「NEURAL VOLUME Rendering: NERF AND BEYOND」、2021 年 1 月、ジョージア工科大学と MIT の共著。
ニューラル レンダリングは次のように定義されます:
「シーンの明示的または暗黙的な制御を可能にする深度画像またはビデオ生成方法」照明、カメラパラメータ、ポーズ、ジオメトリ、外観、意味構造などのプロパティ。
これは、コンピューター グラフィックスでの仮想世界のリアルなレンダリングという長年の問題を解決する、新しいデータ駆動型のソリューションです。
ニューラル ボリューム レンダリングとは、光線をシーンに追跡し、光線の長さに沿ってある種の統合を実行することによって画像またはビデオを生成する方法を指します。通常、多層パーセプトロンのようなニューラルネットワークは、光の3次元座標から濃度、色などの関数をエンコードし、それらを統合して画像を生成します。
ニューラル ボリューム レンダリングの直接のパイオニア作品は、ニューラル ネットワークを使用して暗黙的なサーフェス表現を定義する方法です。 3D 対応の画像生成方法の多くは、ボクセル、グリッド、点群、またはその他の表現を使用し、多くの場合、畳み込みアーキテクチャに基づいています。しかし、CVPR 2019 では、少なくとも 3 つの論文が、占有および/または符号付き距離関数 (SDF) を定義するためのスカラー関数近似としてニューラル ネットワークの使用を紹介しました。
- 占有ネットワークは、座標ベースの暗黙的な占有学習を導入します。 5 つの ResNet ブロックで構成されるネットワークは、特徴ベクトルと 3D ポイントを入力として使用して、バイナリ占有を予測します。
- IM-NET は、6 層 MLP デコーダを使用して、特徴ベクトルと 3D 座標からバイナリ占有を予測します。自動エンコード、形状生成 (GAN スタイル)、および単一ビューの再構成に使用できます。
- DeepSDF は、3D 座標と潜在コードから直接符号付き距離関数を抽出します。レイヤ 4 へのホップ接続を持つ 8 レイヤ MPL を使用します。
- PIFu は、3D ポイントをピクセル位置に合わせた特徴表現に再投影することで、特に詳細な暗黙的モデルを学習できることを示しています。これは PixelNeRF でも繰り返され、その効果は非常に優れています。
暗黙的関数を使用する他のアプローチは次のとおりです。
- Structured Implicit Functions (2019) は、これらの暗黙的表現を組み合わせて、たとえば単純に合計できることを示しています。
- CvxNet (2020) は、pointwise Max (3D) を採用することで符号付き距離関数を結合します。
- BSP ネットワーク (2020) は多くの点で CvxNet に似ていますが、その中核でバイナリ空間分割を使用しており、その結果、高価なメッシュ生成方法ではなく、ポリゴン メッシュをローカルに出力する方法が得られます。
- Deep Local Shapes (2020) は、より大きな拡張シーンを表現するために、深い SDF 潜在コードをボクセル グリッドに保存します。
- Scene Representation Networks (2019) (SRN) は、アーキテクチャが DeepSDF と非常によく似ていますが、微分可能なレイ マーチング アルゴリズムを追加して、学習された暗黙的曲面の最も近い交点を見つけ、MLP 回帰カラーを追加します。複数のポーズから学習する 画像から学習します。
- Differentiable Volumetric Rendering (2019) は、SRN と同様に、暗黙的なシーン表現を画像からトレーニングできる微分可能なレンダラーと組み合わせることができることを示しました。 「ボリューム レンダラー」という用語が使用されていますが、実際の主な貢献は、暗黙的なサーフェスの深度計算を微分可能にする巧妙なトリックです。つまり、ボリューム全体にわたって積分するのではありません。
- Implicit Differentiable Renderer (2020) は、同様のテクニックを提供しますが、より洗練されたサーフェス ライト フィールド表現を備えており、トレーニング中にカメラのポーズを最適化できることを示しています。
- Neural Articulated Shape Approachimation (2020) または NASA。人体などの関節ターゲットを表す暗黙的な関数で構成されます。
まったくの無から出たわけではありませんが、依然としてワープされたボクセルベースの表現ではありますが、ニューラル ボリュームの論文では、ビュー合成のためのボリューム レンダリングを導入し、密度と色を 3D ボリュームに返します。潜在コードは 3D ボリュームにデコードされ、ボリューム レンダリングによって新しい画像が取得されます。
これは、3D 空間の各位置で不透明度と色で構成されるボリューム表現を使用することを提案しており、統合投影によってレンダリングが実現されます。最適化プロセス中、この半透明の幾何学的表現により、積分光線に沿って勾配情報が分散され、収束範囲が効果的に拡張されるため、適切なソリューションの発見が可能になります。
みんなの議論を呼んだ論文は、Neural Radiation Field NeRF 論文 (2020) です。基本的に、ディープ SDF アーキテクチャが使用されますが、符号付き距離関数 (SDF) を回帰する代わりに、密度と色が返されます。次に、(容易に微分可能な) 数値積分法を使用して、実際のボリューム レンダリング ステップを近似します。
NeRF モデルは、ボリューム シーン表現を MLP の重みとして保存し、既知のポーズを持つ多くの画像でトレーニングされます。新しいビューは、各表示光線に沿って一定の間隔で密度と色を統合することによってレンダリングされます。
NeRF が非常に詳細なレンダリングを行う理由の 1 つは、周期的な活性化関数またはフーリエ特徴を使用して、光線上の 3D 点とそれに関連する視線方向をエンコードしていることです。この技術革新は後に、周期的なアクティベーション機能を備えた多層ネットワーク、つまり SIREN (SInusoidal-REpresentation Networks) に拡張されました。どちらの記事も NeurIPS 2020 に掲載されました。
NeRF 論文の影響は、その残酷な単純さにあると言えます。たった 1 つの MLP が 5D 座標で濃度と色を出力するということです。特に位置エンコーディングと層化サンプリング スキームなど、追加機能がいくつかありますが、このような単純なアーキテクチャでこれほど印象的な結果が得られることは驚くべきことです。それでも、オリジナルの NeRF には改善の余地が多く残されており、トレーニングとレンダリングの両方が遅いです。
は静的なシーンのみを表すことができます。 - 照明を修正しました。
- トレーニングされた NeRF 表現は、他のシナリオ/目的に一般化されません。
-
- 一部のプロジェクト/論文は、元の NeRF 論文のかなり遅いトレーニング時間とレンダリング時間を改善することを目的としています。
JAX サポート付き JaxNeRF (2020) (
https://-
github.com/google/jax ) マルチデバイス トレーニングを数日から数時間に変更し、プロセスを大幅にスピードアップします。 AutoInt (2020) は体積積分を直接学習し、レンダリングを大幅に高速化します。
Learned Initialization (2020) は、メタ学習を使用して適切な重み初期化を見つけ、トレーニングを高速化します。 - DeRF (2020) は、アクセラレータ メモリ アーキテクチャを利用して、シーンを「ソフト ボロノイ図」に分解します。
- NERF (2020) は、背景をモデル化し、無限のシナリオを処理するために別の NERF を使用することを推奨しています。
- Neural Sparse Voxel Fields (2020) は、シーンをスパース ボクセル オクツリーに編成し、レンダリング速度を 10 倍に高めます。
-
- 少なくとも 4 つの作品はダイナミックなシーンに焦点を当てています:
Nerfies (2020) とその基礎となる D-NeRF モデルの変形可能なビデオ、2 番目の MLP を使用ビデオのフレーム。
D-NeRF (2020) は Nerfies の論文に非常に似ており、同じ略語も使用していますが、翻訳の変換を制限しているようです。 - Neural Scene Flow Fields (2020) は、既知のカメラ ポーズを入力として、深度予測を事前に行った単眼ビデオを取得し、損失関数で使用するための正則化のためのシーン フローを出力します。
- Spatial-Temporal Neural Irradiance Field (2020) は、追加の入力として時間のみを使用します。このメソッドを適切にトレーニングして任意の視点のビデオを (RGB-D データから!) レンダリングするには、損失関数を慎重に選択する必要があります。
- NeRFlow (2020) は、変形 MLP を使用してシーン フローをモデル化し、時間領域全体で統合して最終的な変形を取得します。
- NR NeRF (2020) も、変形 MLP を使用して非剛体シーンをモデル化します。カメラ パラメーター以外の事前計算されたシーン情報には依存しませんが、生成される出力は Nerfies よりもわずかに鮮明ではありません。
- STaR (2021) は、マルチビュー RGB ビデオを入力として受け取り、シーンを静的ボリュームと動的ボリュームに分解します。ただし、現在サポートされている移動ターゲットは 1 つだけです。
-
- また、人物の顔写真やポートレートに焦点を当てた論文が 2 件あります。
PortraitNeRF (2020) 静的な NeRF スタイルのアバター (Avatar) を作成しますが、RGB 1 つだけで画像をキャプチャします。これを達成するには、ライトステージのトレーニングデータが必要です。
DNRF (G2020) は 4D アバターに焦点を当て、変形した顔モデルをパイプラインに組み込み、強力な誘導バイアスを課します。 -
- NeRF スタイルのアプローチが強化されたもう 1 つの側面は、照明の処理方法です。多くの場合、シーンの再照明に使用できる潜在コードを通じて行われます。
NeRV (2020) は、任意のアンビエント照明と、2 番目の「可視性」MLP による「1 バウンス」間接照明をサポートします。
NeRD (2020) は、局所反射モデルが使用され、さらに特定のシーンに対して低解像度の球面調和照明が削除された別の作品です。 - Neural Reflectance Fields (2020) は、密度に加えてローカル反射モデルを追加することで NeRF を改善します。単一の点光源から発しているにもかかわらず、印象的な再照明結果が得られます。
- NeRF-W (2020) は、NeRF の最初のフォローアップの 1 つで、あまり制御されていないマルチビュー コレクションからニューラル シーン表現を学習できるように潜在外観コードを最適化しています。
-
- 潜在コードを使用して形状事前分布をエンコードすることもできます。
pixelNeRF (2020) は、テスト時に N 個の画像が使用される画像ベースのレンダリングに近いものです。これは PIFu に基づいており、ピクセル位置に合わせた特徴を作成し、NeRF スタイルのレンダラーを評価するときに補間されます。
GRF (2020) は、設定において PixelNeRF に非常に近いですが、ビュー空間ではなく標準空間で動作します。 - GRAF (2020)、または「放射線場の生成モデル」は、GAN スタイルのトレーニングを通じて視点の不変性を達成しながら、外観と形状の潜在コードを追加する NeRF の条件付きバリアントです。
- pi GAN (2020) は、GRAF に似ていますが、潜在コードを使用して各層が異なる MLP 出力によって変調される SIREN スタイルの NeRF 実装を使用します。
-
- おそらく、これは多くのターゲットで構成される大規模なシーンには対応できないため、興味深い新しい領域は、ボリューム レンダリングされたシーンにターゲットをグループ化する方法です。
- オブジェクト中心のニューラル シーン レンダリング (2020) は、オブジェクト中心の座標系で「オブジェクト散乱関数」を学習し、モンテカルロを使用して合成シーンをレンダリングし、リアルに照明できるようにします。
- GIRAFFE (2020) は、オブジェクト中心の NeRF モデルから色の代わりに特徴ベクトルを出力することで合成をサポートし、平均化によって合成され、低解像度で 2D 特徴マップにレンダリングされ、2D サンプリングでアップスケールされます。 。
- Neural Scene Graphs (2020) は、シーン グラフで複数のオブジェクト中心の NeRF モデルをサポートします。
最後に、少なくとも 1 つの論文では、(既知の) ターゲット姿勢推定のコンテキストで NeRF レンダリングを使用しています。
- iNeRF (2020) は、ポーズ推定フレームワークで NeRF MLP を使用し、ポーズを微調整することで標準データセットでのビュー合成を改善することもできます。ただし、まだ照明を扱うことはできません。
神経体のレンダリングと NeRF スタイルの論文が最終的に成功するかどうかは、まったく明らかではありません。現実世界には煙、霞、透明度などが存在しますが、最終的にはほとんどの光は表面から散乱されて目に入ることになります。 NeRF スタイルのネットワークはボリュームベースのアプローチのためトレーニングが簡単かもしれませんが、論文では収束後に表面を発見または推測しようとする傾向が見られます。実際、元の NeRF 論文の層化サンプリング スキームはまさにこれです。したがって、NeRF から学習する場合、少なくとも推論時には、SDF スタイルの暗黙的表現、さらにはボクセルに戻ることが容易にわかります。
以上がニューラル ボリューム レンダリング: NeRF 以降の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。