ポーズ画像からの 3D 屋内シーンの再構成は、通常 2 つの段階に分かれています。画像の深さの推定、それに続く深さの結合と表面の再構成です。最近、いくつかの研究が、最終的な 3D 体積特徴空間で直接再構成を実行する一連の方法を提案しています。これらの手法は優れた再構築結果を達成していますが、高価な 3D 畳み込み層に依存しているため、リソースに制約のある環境での適用は制限されます。
現在、Niantic や UCL などの研究機関の研究者は、従来の手法を再利用し、高品質のマルチビュー深度予測に焦点を当てようとしており、最終的にはシンプルで既製の深度を使用しています。フュージョン法、高精度の 3D 再構成。
この研究では最初に強力な画像を使用します A 2D CNNは、平面スキャン特徴量や幾何学的損失だけでなく、実験に基づいて綿密に設計されています。提案された手法 SimpleRecon は、深度推定において大幅に優れた結果を達成し、オンラインでのリアルタイムの低メモリ再構成を可能にします。
下の図に示すように、SimpleRecon の再構成速度は非常に速く、1 フレームあたりわずか約 70 ミリ秒しかかかりません。
##方法
ネットワーク アーキテクチャ設計
ネットワークは、2D 畳み込みエンコーダ/デコーダ アーキテクチャに基づいて実装されています。このようなネットワークを構築する場合、主に次のような、深さの予測精度を大幅に向上させることができる重要な設計上の選択肢がいくつかあることが研究で判明しています。融合法がよく使用されますが、システムの複雑さが大幅に増加します。代わりに、この研究ではコスト ボリューム フュージョンを可能な限り単純にし、参照ビューと各ソース ビューの間のドット積マッチング コストを加算するだけで、SOTA 深度推定と競合する結果が得られることがわかりました。画像エンコーダと特徴マッチングエンコーダ: これまでの研究では、画像エンコーダが単眼推定と多視点推定の両方で奥行き推定に非常に重要であることが示されています。たとえば、DeepVideoMVS は、比較的待ち時間が短い MnasNet を画像エンコーダとして使用します。この研究では、小型だがより強力な EfficientNetv2 S エンコーダを使用することを推奨しています。これにより、深度推定の精度が大幅に向上しますが、パラメータの数が増加し、実行速度が 10% 低下します。 マルチスケール画像特徴をコスト ボリューム エンコーダーに融合する: 2D CNN ベースのデプス ステレオおよびマルチビュー ステレオでは、通常、画像特徴は単一スケールのコスト ボリューム出力と結合されます。最近、DeepVideoMVS は、あらゆる解像度で画像エンコーダーとコスト ボリューム エンコーダーの間にスキップ接続を追加し、複数のスケールでディープ画像特徴をステッチすることを提案しています。これは LSTM ベースのフュージョン ネットワークに役立ちますが、この調査ではアーキテクチャにとっても重要であることがわかりました。 この研究では、3D シーン再構成データセット ScanNetv2 で提案された方法をトレーニングし、評価しました。以下の表 1 では、Eigen et al. (2014) によって提案されたメトリクスを使用して、いくつかのネットワーク モデルの深度予測パフォーマンスを評価しています。 驚くべきことに、この研究で提案されたモデルは 3D 畳み込みを使用していませんが、深度予測指標ではすべてのベースライン モデルを上回っています。さらに、メタデータ エンコーディングを使用しないベースライン モデルも、以前の方法よりも優れたパフォーマンスを発揮します。これは、高品質の深度推定には、適切に設計されトレーニングされた 2D ネットワークで十分であることを示しています。以下の図 4 と図 5 は、深さと法線の定性的な結果を示しています。 # この研究では、3D 再構築評価のために TransformerFusion によって確立された標準プロトコルを使用しました。結果を表に示します。 2以下です。 オンラインでインタラクティブな 3D 再構成アプリケーションでは、センサーの遅延を短縮することが重要です。以下の表 3 は、新しい RGB フレームが与えられた場合の各モデルのフレームごとのアンサンブル計算時間を示しています。 この研究で提案した方法の各コンポーネントの有効性を検証するために、研究者はアブレーション実験を実施しました。その結果は次のとおりです。以下の表 4 に記載されています。 興味のある読者は、論文の原文を読んで研究の詳細を学ぶことができます。 実験
以上がA100 は、3D コンボリューションを使用しない 3D 再構成方法を実装しており、各フレームの再構成にかかる時間はわずか 70 ミリ秒です。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。