Originaltitel: Anything in Any Scene: Photorealistic Video Object Insertion
Papierlink: https://arxiv.org/pdf/2401.17509.pdf
Codelink: https://github.com/AnythingInAnyScene/anything_in_anyscene
Zugehörigkeit des Autors: Vor allem, wenn die Aufnahme von Videos in der realen Welt unpraktisch oder teuer ist. Bestehende Methoden in der Videosimulation sind oft nicht in der Lage, Beleuchtungsumgebungen genau zu modellieren, Objektgeometrien darzustellen oder ein hohes Maß an Fotorealismus zu erreichen. In diesem Artikel wird „Anything in Any Scene“ vorgeschlagen, ein neuartiges und vielseitiges Simulationsframework für reale Videos, das jedes Objekt nahtlos in vorhandene dynamische Videos einfügen und den physischen Realismus betonen kann. Der in diesem Artikel vorgeschlagene Gesamtrahmen enthält drei Schlüsselprozesse: 1) Integration realer Objekte in ein bestimmtes Szenenvideo und deren Platzierung an geeigneten Orten, um geometrischen Realismus sicherzustellen; 2) Schätzung der Verteilung der Himmels- und Umgebungsbeleuchtung sowie Simulation realer Schatten und Verbesserung des Lichtrealismus; 3) Verwenden Sie ein Stilübertragungsnetzwerk, um die endgültige Videoausgabe zu verfeinern und den Fotorealismus zu maximieren. Dieser Artikel beweist experimentell, dass das Anything in Any Scene-Framework Simulationsvideos mit ausgezeichnetem geometrischem Realismus, Beleuchtungsrealismus und Fotorealismus generieren kann. Durch die deutliche Reduzierung der mit der Videodatengenerierung verbundenen Herausforderungen bietet unser Framework eine effiziente und kostengünstige Lösung für den Erhalt hochwertiger Videos. Darüber hinaus gehen seine Anwendungen weit über die Verbesserung von Videodaten hinaus und zeigen vielversprechendes Potenzial in der virtuellen Realität, der Videobearbeitung und verschiedenen anderen videozentrierten Anwendungen.
Hauptbeitrag
Nach umfassender Verifizierung zeigen die Ergebnisse, dass das Framework in der Lage ist, äußerst realistische Videosimulationen zu erstellen und damit den Anwendungsbereich und das Entwicklungspotenzial dieses Bereichs deutlich zu erweitern.
Die Übersicht über das Anything in Any Scene-Framework dieses Artikels ist in Abbildung 2 dargestellt. In diesem Artikel wird in Abschnitt 3 unsere neuartige und skalierbare Pipeline zum Aufbau einer vielfältigen Asset-Bibliothek aus Szenenvideos und Objektnetzen beschrieben. In diesem Artikel wird eine visuelle Datenabfrage-Engine vorgestellt, die entwickelt wurde, um relevante Videoclips aus visuellen Abfragen mithilfe beschreibender Schlüsselwörter effizient abzurufen. Als Nächstes werden in diesem Artikel zwei Methoden zum Generieren von 3D-Netzen vorgeschlagen, die sowohl vorhandene 3D-Assets als auch die Bildrekonstruktion mit mehreren Ansichten nutzen. Dies ermöglicht das uneingeschränkte Einfügen jedes gewünschten Objekts, auch wenn es sehr unregelmäßig oder semantisch schwach ist. In Abschnitt 4 beschreibt das Papier Methoden zur Integration von Objekten in dynamische Szenenvideos, wobei der Schwerpunkt auf der Aufrechterhaltung des physischen Realismus liegt. In diesem Artikel wird die in Abschnitt 4.1 beschriebene Methode zur Objektplatzierung und -stabilisierung entworfen, um sicherzustellen, dass das eingefügte Objekt in aufeinanderfolgenden Videobildern stabil verankert ist. Um der Herausforderung gerecht zu werden, realistische Licht- und Schatteneffekte zu erzeugen, schätzt dieses Dokument die Himmels- und Umgebungsbeleuchtung und erzeugt beim Rendern realistische Schatten, wie in Abschnitt 4.2 beschrieben. Die generierten simulierten Videobilder enthalten unweigerlich unrealistische Artefakte, die sich von real aufgenommenen Videos unterscheiden, wie z. B. Unterschiede in der Bildqualität in Bezug auf Rauschpegel, Farbtreue und Schärfe. In diesem Artikel wird das Stilübertragungsnetzwerk verwendet, um den Fotorealismus in Abschnitt 4.3 zu verbessern.
Die aus dem in diesem Artikel vorgeschlagenen Framework generierten Simulationsvideos erreichen ein hohes Maß an Beleuchtungsrealismus, geometrischem Realismus und Fotorealismus und übertreffen andere Videos sowohl in Qualität als auch in Quantität, wie in Abschnitt 5.3 gezeigt. Dieser Artikel demonstriert weiter die Anwendung des Simulationsvideos dieses Artikels beim Training von Wahrnehmungsalgorithmen in Abschnitt 5.4, um seinen praktischen Wert zu überprüfen. Das „Anything in Any Scene“-Framework ermöglicht die Erstellung umfangreicher, kostengünstiger Videodatensätze zur Datenerweiterung mit Zeiteffizienz und realistischer visueller Qualität, wodurch die Belastung durch die Videodatengenerierung verringert und möglicherweise Long-Tail- und Out-of-View-Daten verbessert werden. Herausforderungen im Vertrieb. Mit seinem allgemeinen Framework-Design kann das Anything in Any Scene-Framework problemlos verbesserte Modelle und neue Module, wie beispielsweise verbesserte 3D-Netzrekonstruktionsmethoden, integrieren, um die Leistung der Videosimulation weiter zu verbessern.
Abbildung 1. Beispiele für simulierte Videobilder mit Fehlern bei der Schätzung der Beleuchtungsumgebung, Fehlern bei der Objektplatzierung und unrealistischen Texturstilen. Diese Probleme führen dazu, dass dem Bild der physische Realismus fehlt. Abbildung 2. Übersicht über das Anything in Any Scene-Framework für das Einfügen fotorealistischer Videoobjekte. Abbildung 3. Beispiel eines Fahrszenenvideos für die Objektplatzierung. Die roten Punkte in jedem Bild zeigen an, wo die Objekte eingefügt wurden.
Abbildung 4. Beispiele für Original-Himmelsbilder, rekonstruierte HDR-Bilder und die zugehörigen Karten zur Verteilung der Sonneneinstrahlung
Abbildung 5. Beispiele für Original- und rekonstruierte HDR-Umgebungspanoramabilder
Abbildung 6. Beispiel für die Erzeugung von Schatten für eingefügte Objekte
Abbildung 7. Qualitativer Vergleich simulierter Videobilder aus dem PandaSet-Datensatz unter Verwendung verschiedener Übertragungsnetzwerke.
Abbildung 8. Qualitativer Vergleich simulierter Videobilder aus dem PandaSet-Datensatz unter verschiedenen Rendering-Bedingungen.
Dieses Papier schlägt ein innovatives und erweiterbares Framework vor, „Anything in Any Scene“, das für eine realistische Videosimulation entwickelt wurde. Das in diesem Artikel vorgeschlagene Framework integriert verschiedene Objekte nahtlos in verschiedene dynamische Videos und stellt so sicher, dass geometrischer Realismus, Beleuchtungsrealismus und Fotorealismus erhalten bleiben. Durch ausführliche Demonstrationen demonstriert dieses Papier seine Wirksamkeit bei der Bewältigung der mit der Erfassung und Generierung von Videodaten verbundenen Herausforderungen und bietet kostengünstige und zeitsparende Lösungen für eine Vielzahl von Szenarien. Die Anwendung unseres Frameworks zeigt signifikante Verbesserungen bei nachgelagerten Wahrnehmungsaufgaben, insbesondere bei der Lösung des Long-Tail-Verteilungsproblems bei der Objekterkennung. Die Flexibilität unseres Frameworks ermöglicht die direkte Integration verbesserter Modelle für jedes Modul und unser Framework legt eine solide Grundlage für zukünftige Erkundungen und Innovationen im Bereich der realistischen Videosimulation.
Anything in Any Scene: Photorealistic Video Object Insertion[J].
Das obige ist der detaillierte Inhalt vonAlles in jeder Szene: Realistische Objekteinfügung (zur Unterstützung der Synthese verschiedener Fahrdaten). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!