元のタイトル: Anything in Any Scene: Photorealistic Video Object Insertion
論文リンク: https://arxiv.org/pdf/2401.17509.pdf
コード リンク: https ://github.com/AnythingInAnyScene/anything_in_anyscene
著者の所属: Xpeng Motors
Anything in Any Scene を提案します。この論文で提案する全体的なフレームワークには、3 つの重要なプロセスが含まれています: 1) 現実のオブジェクトを特定のシーン ビデオに統合し、それらを適切な位置に配置して幾何学的なリアリズムを確保する; 2) 空と周囲の照明分布を推定し、実際の影をシミュレートして光のリアリズムを強化する; 3) スタイル転送ネットワークを使用して最終的なビデオ出力を調整し、写真のリアリズムを最大限に高めます。この記事では、Anything in Any Scene フレームワークが優れた幾何学的リアリズム、照明リアリズム、フォト リアリズムを備えたシミュレーション ビデオを生成できることを実験的に証明します。ビデオ データ生成に関連する課題を大幅に軽減することで、当社のフレームワークは、高品質のビデオを取得するための効率的でコスト効率の高いソリューションを提供します。さらに、そのアプリケーションはビデオ データの拡張をはるかに超えて拡張されており、仮想現実、ビデオ編集、その他のさまざまなビデオ中心のアプリケーションにおいて有望な可能性を示しています。
この記事の Anything in Any Scene フレームワークの概要を図 2 に示します。このペーパーでは、セクション 3 でシーン ビデオとオブジェクト メッシュの多様なアセット ライブラリを構築するための斬新でスケーラブルなパイプラインについて詳しく説明します。この文書では、説明的なキーワードを使用してビジュアル クエリから関連するビデオ クリップを効率的に取得するように設計されたビジュアル データ クエリ エンジンを紹介します。次に、この論文では、既存の 3D アセットとマルチビュー画像再構成を活用して 3D メッシュを生成する 2 つの方法を提案します。これにより、たとえそれが非常に不規則であったり、意味的に弱い場合でも、任意の目的のオブジェクトを無制限に挿入できます。セクション 4 では、物理的なリアリズムの維持に焦点を当て、オブジェクトを動的なシーン ビデオに統合する方法について詳しく説明します。この論文では、挿入されたオブジェクトが連続するビデオ フレームに安定して固定されるように、セクション 4.1 で説明されているオブジェクトの配置と安定化の方法を設計します。リアルな照明と影の効果を作成するという課題に対処するために、このペーパーでは、セクション 4.2 で説明されているように、空と環境の照明を推定し、レンダリング中にリアルな影を生成します。生成されたシミュレートされたビデオ フレームには、ノイズ レベル、色の忠実度、シャープネスなどの画質の違いなど、実際にキャプチャされたビデオとは異なる非現実的なアーチファクトが必然的に含まれます。この論文では、セクション 4.3 でスタイル転送ネットワークを使用して写真のリアリズムを強化します。
セクション 5.3 で示したように、この論文で提案したフレームワークから生成されたシミュレーション ビデオは、高度な照明リアリズム、幾何学的リアリズム、フォト リアリズムを実現し、質と量の両方で他のビデオを上回っています。この記事では、セクション 5.4 の知覚アルゴリズムのトレーニングにおけるこの記事のシミュレーション ビデオの適用をさらに実証し、その実用的な価値を検証します。 Anything in Any Scene フレームワークを使用すると、時間効率と現実的な視覚品質を備えたデータ拡張のための大規模で低コストのビデオ データセットの作成が可能になり、これによりビデオ データ生成の負担が軽減され、ロングテールとアウトオブビデオが改善される可能性があります。配布の課題。一般的なフレームワーク設計により、Anything in Any Scene フレームワークは、改良された 3D メッシュ再構成方法などの改良されたモデルと新しいモジュールを簡単に統合して、ビデオ シミュレーションのパフォーマンスをさらに向上させることができます。
図 1. 照明環境の推定が不正確、オブジェクトの配置が不正確、テクスチャ スタイルが非現実的であるシミュレートされたビデオ フレームの例 これらの問題により、画像に物理的なリアリズムが欠けています。 図 2. フォトリアリスティックなビデオ オブジェクト挿入のための Anything in Any Scene フレームワークの概要 図 3. オブジェクト配置のための運転シーン ビデオの例。各画像内の赤い点は、オブジェクトが挿入された場所です。
図 4. 元の空の画像、再構成された HDR 画像、およびそれらに関連する太陽照度分布マップの例
図 5. 元の HDR 環境パノラマ画像と再構築された HDR 環境のパノラマ画像の例
図 6. 挿入されたオブジェクトの影の例
# 図 7. さまざまなスタイルの転送ネットワークを使用して PandaSet データセットからシミュレートされたビデオ フレームの定性的比較。
図 8. さまざまなレンダリング条件下で PandaSet データセットからシミュレートされたビデオ フレームの定性的比較。
この文書では、リアルなビデオ シミュレーションとデザインのために設計された、革新的で拡張可能なフレームワーク「あらゆるシーンのあらゆるもの」を提案します。この論文で提案されているフレームワークは、さまざまなオブジェクトをさまざまなダイナミック ビデオにシームレスに統合し、幾何学的なリアリズム、照明のリアリズム、写真のリアリズムを確実に維持します。このペーパーでは、広範なデモンストレーションを通じて、ビデオ データの収集と生成に関連する課題を軽減する有効性を示し、さまざまなシナリオに対して費用対効果が高く、時間を節約できるソリューションを提供します。私たちのフレームワークを適用すると、下流の認識タスク、特に物体検出におけるロングテール分布問題の解決において大幅な改善が見られます。当社のフレームワークの柔軟性により、各モジュールの改善されたモデルを直接統合することができ、当社のフレームワークは、リアルなビデオ シミュレーションの分野における将来の探求と革新のための強固な基盤を築きます。
Bai C、Shao Z、Zhang G、他、「Anything in Any Scene: Photorealistic Video Object Insertion」[J]、arXiv プレプリント arXiv:2401.17509 、2024.
以上がAnything in Any Scene: リアルなオブジェクトの挿入 (さまざまな走行データの合成を支援するため)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。