ホームページ > テクノロジー周辺機器 > AI > 高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。

高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。

PHPz
リリース: 2024-08-05 20:15:51
オリジナル
638 人が閲覧しました
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
上記のアニメーションは完全に複数の写真からレンダリングされた 3D シーンであることに注意してください。人間は自分の欠点を見つけるのが難しいのです。

それでは、このシナリオがどのように実現されるかを見てみましょう。

グリッドとポイントは最も一般的な 3D シーン表現であり、明示的であるため、高速な GPU/CUDA ベースのラスタライゼーションに適しています。対照的に、最先端の神経放射場 (NeRF) 手法は連続シーン表現に基づいて構築されており、多くの場合、ボリューム レイ レンダリングに最適化された多層パーセプトロン (MLP) を使用して、キャプチャされたシーンに新しい視点を合成します。これらのメソッドの連続性は最適化に役立ちますが、レンダリングに必要なランダム サンプリングはコストが高く、ノイズが多くなります。

フレンチ リビエラ大学の研究者らは、これら 2 つの方法の利点を組み合わせた新しい方法を導入しました。3D ガウス表現は SOAT の視覚的品質を備え、トレーニング時間も最適化されますが、タイルベースの雪だるま式アルゴリズム (タイルベースのスプラッティング) は、いくつかのデータ セット上で 1080p 解像度での SOTA リアルタイム レンダリングを実現します。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
論文のアドレス: https://huggingface.co/papers/2308.04079
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
研究チームは、複数の写真で撮影されたシーンをリアルタイムでレンダリングし、典型的な実際のシーンで最速の時間を達成するという目標を設定しました。最適化。 Fridovich-Kei らが以前に提案した手法は高速なトレーニングを実現しましたが、現在の SOTA NeRF 手法で達成される視覚的な品質を達成することは困難であり、トレーニングに最大 48 時間を要しました。シーンに応じたインタラクティブなレンダリング(1秒あたり10~15フレーム)を実現する高速だが低品質の放射線場法も提案されているが、この方法では高解像度でのリアルタイムレンダリングは実現できない。

次に、この記事がどのように実装されるかを見てみましょう。研究チームのソリューションは主に 3 つの部分で構成されています。

まず、柔軟で表現力豊かなシーン表現として 3D ガウシアンを紹介します。入力は NeRF 法と似ています。つまり、カメラは Structure-from-Motion (SfM) を使用して校正され、3D ガウス アンサンブルは SfM プロセスから導出された疎な点群を使用して初期化されます。さらに、この研究では SfM ポイントのみを入力として使用して高品質の結果を得ることができました。 NeRF 合成データセットの場合、私たちの方法はランダムな初期化でも高品質の結果を取得できることに注意してください。研究によると、3D ガウスが良い選択であることがわかっています。
2 番目に、3D ガウス プロパティ、つまり 3D 位置、不透明度、異方性共分散、球面調和関数 (SH) 係数を最適化します。最適化プロセスにより、かなりコンパクトで構造化されていない正確なシーンの表現が生成されます。

3 番目のリアルタイム レンダリング ソリューションでは、この研究では高速 GPU ソート アルゴリズムを使用します。ただし、3D ガウス表現により、ソートとブレンディングのおかげで、可視性の順序を尊重しながら異方性スプライシングを実行することができます。また、必要な数のソートされたスプライスのトラバースを追跡することで、高速かつ正確に後方に渡すことができます。

手法の概要

要約すると、この論文は次のような貢献をします:

高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。 放射線場の高品質で非構造化表現としての異方性 3D ガウスの導入。
適応密度制御と組み合わされた 3D ガウス プロパティの最適化手法により、キャプチャされたシーンの高品質な表現を作成します。

可視性を考慮した GPU 用の高速微分可能なレンダリング手法。 -高品質の新しいビューの合成。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
実験

次の図は、この記事の方法と以前の方法の効果の比較を示しています。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
シーンは上から下まで、Mip-NeRF360 データセットの自転車、庭園、カウンター、部屋、ディープ ハイブリッド データセットのゲーム ルームです (詳細な比較については、元の記事をお読みください)。自転車のスポーク、庭の端にある家のガラス、鉄かごのポール、テディベアなど、さまざまな方法によって生じた大きな違いが図に示されています。

この記事の方法には、以前の方法よりも詳細な点で多くの利点があることがわかります。

高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
ビデオでより明らかな違いを確認できます

さらに、図 6 では、7K の反復 (約 5 分) であっても、この記事の方法では電車の細部までよく捉えています。 30K の反復 (約 35 分) で、背景のアーティファクトが大幅に減少します。庭園のシーンでは、違いはほとんど目立たず、7K の反復 (約 8 分) ですでに非常に高品質です。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
研究チームは Mip-NeRF360 によって提案された方法を採用し、データセットをトレーニング/テスト部分に分割し、8 枚ごとに写真をテストして一貫性のある有意義な比較を行い、それによってエラー指標を生成し、最も一般的に使用される文献に記載されている標準 PSNR、L-PIPS、および SSIM インジケーターの詳細データを表 1 に示します。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
表 1 は、3 つのデータセットにわたって計算された以前の研究と比較した、新しい手法の定量的評価を示しています。 「†」が付いた結果は原論文からそのまま採用され、その他の結果は実験チームによる実験結果です。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
合成 NeRF の PSNR スコア。この記事の方法では、ほとんどの場合にスコアが向上し、最適レベルに達することさえあることがわかります。

アブレーション実験

研究チームは、行われたさまざまな貢献とアルゴリズムの選択を分離し、その効果を測定するための一連の実験を構築しました。アルゴリズムの次の側面がテストされました: SfM からの初期化、高密度化戦略、異方性共分散、勾配のある無制限の数のパッチの許可、および球面調和関数の使用。以下の表は、各オプションの定量的な効果をまとめたものです。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
より直感的なエフェクトを見てみましょう。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
初期化に SfM ポイントを使用すると、より良い結果が得られます。
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
クローンと分割の両方のケースにおけるアブレーション高密度化戦略
高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。
視覚的な品質に大きな影響を与える、グラデーションを受け入れるポイントの数を制限します。左: 受信した勾配を制限する 10 のガウス ポイント。右: この記事の完全な方法論。

詳しくは元記事をお読みください。

以上が高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:jiqizhixin.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート