Neural Radiation Fields (NeRF) は、新しいビュー合成方法として人気があります。 NeRF は、より広範囲のアプリケーションやデータセットに急速に一般化していますが、NeRF モデリング シナリオを直接編集することは依然として大きな課題です。重要なタスクは、3D シーンから不要なオブジェクトを削除し、周囲のシーンとの一貫性を維持することです。このタスクは 3D イメージの修復と呼ばれます。 3D では、ソリューションは複数のビューにわたって一貫しており、幾何学的に有効である必要があります。
この記事では、サムスン、トロント大学、その他の機関の研究者が、単一の入力におけるポーズ画像の少数セットと疎性を考慮して、これらの課題を解決するための新しい 3D 修復手法を提案します。画像に注意してください。提案されたモデル フレームワークは、最初にターゲット オブジェクトの 3 次元セグメンテーション マスクを迅速に取得してそのマスクを使用し、次に学習された 2 次元画像を使用してその情報を修復および抽出する知覚最適化に基づく方法を導入します。ビューの一貫性を確保しながら、3 次元空間に変換します。
この研究は、困難な現実のシーン データセットでトレーニングすることにより、3D シーン内修復手法を評価するための新しいベンチマークももたらします。特に、このデータセットには、ターゲット オブジェクトがある場合とない場合の同じシーンのビューが含まれており、3D 空間での修復タスクのより原則的なベンチマークが可能になります。
以下この効果は、いくつかのオブジェクトを削除した後でも、周囲のシーンとの一貫性を維持できることを示しています。
この記事の方法と他の方法の比較メソッド、その他のメソッド 明らかな成果物がありますが、この記事のメソッドはそれほど明白ではありません:
メソッドの紹介著者は、統合された方法を使用しています。3D シーン編集タスクにおけるさまざまな課題に対処するために、この方法では、シーンのマルチビュー画像を取得し、ユーザー入力を使用して 3D マスクを抽出し、NeRF トレーニングを使用してそれをマスク画像に適合させます。ターゲットオブジェクトは合理的に立体的に見え、幾何学的形状が置き換えられます。既存のインタラクティブな 2D セグメンテーション手法では 3D の側面が考慮されておらず、現在の NeRF ベースの手法ではスパース アノテーションを使用して良好な結果を得ることができず、十分な精度が得られません。現在の NeRF ベースのアルゴリズムの中には、オブジェクトの削除を許可するものもありますが、新たに生成された空間部分を提供しようとするものではありません。現在の研究の進歩によると、この研究は、単一のフレームワークでインタラクティブなマルチビュー セグメンテーションと完全な 3D 画像復元を同時に処理する最初の作品です。
研究者は、セグメンテーションと画像復元に既製の 3D フリー モデルを利用し、一貫したビューで出力を 3D 空間に転送します。 2D インタラクティブ セグメンテーションの研究に基づいて構築された提案されたモデルは、ターゲット オブジェクト上でマウスを使用してユーザーが調整した少数の画像ポイントから開始します。これに基づいて、彼らのアルゴリズムはビデオベースのモデルでマスクを初期化し、セマンティック マスクの NeRF を当てはめることによって一貫した 3D セグメンテーションにトレーニングします。次に、事前トレーニングされた 2D 画像復元がマルチビュー画像セットに適用され、NeRF フィッティング プロセスを使用して 3D 画像シーンが再構成され、知覚損失を使用して 2D 画像の不一致を制限し、正規化された画像のジオメトリが制限されます。深度画像領域のマスク。全体として、以下の図に示すように、オブジェクトの選択から埋め込みシーンの新しいビューの合成まで、ユーザーの負担を最小限に抑えた統合フレームワークで完全なアプローチを提供します。
要約すると、この研究の貢献は次のとおりです。
メソッドに特有の、この研究ではまず、単一ビューの注釈から大まかな 3D マスクを初期化する方法について説明します。注釈付きのソース コード ビューを I_1 として示します。オブジェクトとソース ビューに関するまばらな情報を対話型セグメンテーション モデルにフィードします。このモデルは、初期ソース オブジェクト マスク を推定するために使用されます。次に、トレーニング ビューはビデオ シーケンスとして扱われ、 を計算するためのビデオ インスタンス セグメンテーション モデル V が与えられ、# が計算されます。ここで、 は、I_i のオブジェクト マスクの初期推定値です。トレーニング ビューは実際には隣接するビデオ フレームではなく、ビデオ セグメンテーション モデルは 3D で未知であることが多いため、初期マスクは境界付近で不正確になることがよくあります。
マルチビュー セグメンテーション モジュールは、入力 RGB 画像、対応するカメラの固有パラメータと外部パラメータ、および初期パラメータを取得します。セマンティック NeRF をトレーニングするためのマスク。上の図は、セマンティック NeRF で使用されるネットワークを示しています。点 x とビュー ディレクトリ d に対して、密度 σ と色 c に加えて、プレシグモイド オブジェクト ロジット s (x) を返します。高速収束を実現するために、研究者らはインスタント NGP を NeRF アーキテクチャとして使用しました。光線 r に関連する望ましい客観性は、密度に対する色ではなく、r 上の点の対数を方程式で表すことによって得られます。
##分類損失は監視に使用されます。## は、以下に基づいて監視に使用されます。 NeRF のマルチビュー セグメンテーション モデルの全体的な損失は次のとおりです。
##最後に、最適化に 2 つの段階が使用され、さらに改善されます。マスク コード; 初期 3D マスクを取得した後、マスクはトレーニング ビューからレンダリングされ、(ビデオ セグメンテーション出力の代わりに) 初期仮説として 2 次マルチビュー セグメンテーション モデルを監視するために使用されます。
#上の画像は、ビュー一貫性のある修正の概要を示しています。データ不足により 3D 修正修復モデルの直接トレーニングができないため、この研究では既存の 2D 修復モデルを利用して深さと外観の事前分布を取得し、シーン全体に適合する NeRF レンダリングを監視します。この埋め込み NeRF は、次の損失を使用してトレーニングされます:
#この研究は、ビューの一貫性を備えた修復方法を提案し、入力は RGB です。まず、イメージとマスクのペアをイメージ インペインターに転送して、RGB イメージを取得します。各ビューは独立して修復されるため、修復されたビューは NeRF 再構築を監視するために直接使用されます。この論文では、マスクを生成するための損失として平均二乗誤差 (MSE) を使用する代わりに、研究者らは知覚損失 LPIPS を使用して画像のマスクされた部分を最適化し、同時に MSE を使用してマスクされていない部分を最適化することを提案しています。この損失は次のように計算されます。
知覚的な損失があっても、ビュー間の違いを修復すると、誤った結果が得られます。低品質のジオメトリに収束します (たとえば、各ビューからの異なる情報を考慮して、「ぼやけた」ジオメトリ測定値がカメラの近くに形成される場合があります)。したがって、研究者らは生成された深度マップを NeRF モデルの追加のガイダンスとして使用し、知覚損失を計算するときに重みを分離し、知覚損失を使用してシーンの色のみを適合させました。これを行うために、不要なオブジェクトを含む画像に最適化された NeRF を使用し、トレーニング ビューに対応する深度マップをレンダリングしました。計算方法は、点の色の代わりにカメラまでの距離を使用することです。
# 次に、レンダリングされた深度はインペインター モデルに入力され、インペイントされた深度マップが取得されます。研究の結果、RGB などの深度レンダリングに LaMa を使用すると、十分に高品質な結果が得られることがわかりました。この NeRF は、マルチビュー セグメンテーションに使用されるのと同じモデルにすることができます。人間の注釈が付けられたマスクなど、他のソースがマスクの取得に使用される場合、新しい NeRF がシーンにインストールされます。これらの深度マップは、ペイントされた NeRF のジオメトリを監視するために使用され、レンダリングされた深度がインペインター モデルに供給されて、ペイントされた深度マップが取得されます。研究の結果、RGB などの深度レンダリングに LaMa を使用すると、十分に高品質な結果が得られることがわかりました。この NeRF は、マルチビュー セグメンテーションに使用されるのと同じモデルにすることができます。人間の注釈が付けられたマスクなど、他のソースがマスクの取得に使用される場合、新しい NeRF がシーンにインストールされます。次に、これらの深度マップを使用して、インペイントされた深さまでのレンダリング深度によって、インペイントされた深さまで ## の距離だけインペイントされた NeRF のジオメトリを監視します。
#実験結果
マルチビュー セグメンテーション:まず、編集修正を行わずに MVSeg モデルを評価します。この実験では、まばらな画像点に既製の対話型セグメンテーション モデルが与えられており、ソース マスクが利用可能であると仮定しています。したがって、タスクはソースマスクを他のビューに転送することです。以下の表は、新しいモデルが 2D (3D 不一致) および 3D ベースラインよりも優れていることを示しています。さらに、研究者らによって提案された 2 段階の最適化は、結果として得られるマスクをさらに改善するのに役立ちます。定性的に言えば、以下の図は、研究者のセグメンテーション モデルの結果と、NVOS およびいくつかのビデオ セグメンテーション手法の出力を比較しています。比較する。彼らのモデルは、3D ビデオ セグメンテーション モデルの厚いエッジと比較して、ノイズを低減し、ビューの一貫性を向上させます。 NVOS は研究者の新しいモデルで使用されているスパース ポイントの代わりに落書きを使用していますが、新しいモデルの MVSeg は視覚的に NVOS よりも優れています。 NVOS コードベースは利用できないため、研究者は NVOS 上で公開されている定性的結果を再現しました (その他の例については補足文書を参照してください)。
#
次の表は、MV 手法とベースラインとの比較を示しており、全体として、新しく提案された手法は他の 2D および 3D 修復手法よりも大幅に優れています。以下の表は、幾何学的構造からガイダンスを削除すると、修復されたシーンの品質が低下することをさらに示しています。
#定性的な結果を図 6 と図 7 に示します。図 6 は、私たちの方法が、光沢のある表面とマットな表面の一貫したビューを含む、詳細なテクスチャを持つビュー一貫性のあるシーンを再構築できることを示しています。図 7 は、私たちの知覚的手法がマスク領域の正確な再構成制約を軽減し、それによってすべての画像を使用する際のぼやけの出現を防ぎ、同時に単一ビュー監視によって引き起こされるアーティファクトを回避することを示しています。
以上がNeRF の新しい研究結果がここにあります: 3D シーンは髪まで正確に、物体なしで跡形もなく削除されますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。