Das hochauflösende Video ist nicht echt. Die in mehreren Fotos wiedergegebenen 3D-Szenen machen es für Sie schwierig, die Authentizität zu erkennen.-KI-php.cn

Das hochauflösende Video ist nicht echt. Die in mehreren Fotos wiedergegebenen 3D-Szenen machen es für Sie schwierig, die Authentizität zu erkennen.

PHPz

Freigeben： 2024-08-05 20:15:51

Original

725 Leute haben es durchsucht

Das hochauflösende Video ist nicht echt. Die in mehreren Fotos wiedergegebenen 3D-Szenen machen es für Sie schwierig, die Authentizität zu erkennen.

Bitte beachten Sie, dass es sich bei der obigen Animation vollständig um eine 3D-Szene handelt, die aus mehreren Fotos gerendert wurde. Für Menschen ist es schwierig, ihre Fehler zu erkennen.

Dann schauen wir uns an, wie dieses Szenario umgesetzt wird.

Gitter und Punkte sind die häufigsten 3D-Szenendarstellungen, und da sie explizit sind, eignen sie sich gut für eine schnelle GPU/CUDA-basierte Rasterung. Im Gegensatz dazu basieren hochmoderne NeRF-Methoden (Neural Radiation Field) auf einer kontinuierlichen Szenendarstellung und verwenden häufig volumetrische Strahlenwiedergabe optimierte Mehrschicht-Perzeptrone (MLP), um neue Perspektiven auf die erfasste Szene zu synthetisieren. Während die Kontinuität dieser Methoden bei der Optimierung hilft, ist die für das Rendering erforderliche Zufallsstichprobe teuer und verrauscht.

Forscher der Universität der Französischen Riviera haben eine neue Methode eingeführt, die die Vorteile dieser beiden Methoden kombinieren kann: Die 3D-Gaußsche Darstellung weist eine visuelle SOAT-Qualität auf und ist auch in der Trainingszeit optimiert, während der kachelbasierte Schneeballalgorithmus ( kachelbasiertes Splatting) ermöglicht SOTA-Echtzeit-Rendering mit einer Auflösung von 1080p für mehrere Datensätze.

Papieradresse: https://huggingface.co/papers/2308.04079

Das Forschungsteam hat sich ein Ziel gesetzt: mit mehreren Fotos aufgenommene Szenen in Echtzeit zu rendern und in typischen realen Szenen die schnellste Zeit zu erreichen Optimierung. Obwohl die zuvor von Fridovich-Kei et al. vorgeschlagene Methode ein schnelles Training ermöglichte, war es schwierig, die visuelle Qualität der aktuellen SOTA-NeRF-Methode zu erreichen, die bis zu 48 Stunden Trainingszeit erforderte. Es gibt auch Studien, die schnelle, aber qualitativ minderwertige Strahlungsfeldmethoden vorschlagen, mit denen eine interaktive Darstellung entsprechend der Szene (10–15 Bilder pro Sekunde) erreicht werden kann, diese Methode kann jedoch keine Echtzeitdarstellung bei hohen Auflösungen erreichen.

Als nächstes wollen wir sehen, wie dieser Artikel umgesetzt wird. Die Lösung des Forschungsteams besteht im Wesentlichen aus drei Teilen.

Führen Sie zunächst 3D-Gauß als flexible und ausdrucksstarke Szenendarstellung ein. Die Eingabe ähnelt der NeRF-Methode, d. h. die Kamera wird mithilfe von Structure-from-Motion (SfM) kalibriert und ein 3D-Gauß-Ensemble wird mithilfe einer dünn besetzten Punktwolke initialisiert, die aus dem SfM-Prozess abgeleitet wurde. Darüber hinaus konnte diese Studie qualitativ hochwertige Ergebnisse erzielen, indem nur SfM-Punkte als Eingabe verwendet wurden. Es ist zu beachten, dass unsere Methode für den synthetischen NeRF-Datensatz auch bei zufälliger Initialisierung qualitativ hochwertige Ergebnisse erzielen kann. Untersuchungen zeigen, dass 3D-Gauß eine gute Wahl ist.

Zweitens optimieren Sie die 3D-Gaußschen Eigenschaften, nämlich 3D-Position, Opazität?, anisotrope Kovarianz und sphärische harmonische (SH) Koeffizienten. Durch den Optimierungsprozess entsteht eine eher kompakte, unstrukturierte und präzise Darstellung der Szene.

Dritte, Echtzeit-Rendering-Lösung, diese Forschung verwendet einen schnellen GPU-Sortieralgorithmus. Aufgrund der 3D-Gauß-Darstellung ist es jedoch dank Sortieren und Mischen möglich, anisotropes Spleißen unter Berücksichtigung der Sichtbarkeitsreihenfolge durchzuführen und den Durchlauf so vieler sortierter Spleiße wie erforderlich zu verfolgen, was eine schnelle und genaue Rückwärtsweitergabe ermöglicht.

Übersicht über die Methoden

Zusammenfassend leistet dieses Papier die folgenden Beiträge:

Einführung anisotroper 3D-Gauß-Funktionen als hochwertige, unstrukturierte Darstellung von Strahlungsfeldern;

Optimierungsmethode für 3D-Gauß-Eigenschaften, verknüpft mit adaptiver Dichtesteuerung, um hochwertige Darstellungen erfasster Szenen zu erstellen.

Eine schnelle, differenzierbare Rendering-Methode für GPUs, die sicht auf die Sichtbarkeit achtet. Funktionen, die anisotropes Stitching und schnelle Backpropagation für hohe Sichtbarkeit ermöglichen -Qualität neue Ansichtssynthese.

Experiment

Die folgende Abbildung zeigt den Vergleich der Auswirkungen der Methode dieses Artikels mit früheren Methoden.

Die Szenen von oben nach unten sind Fahrräder, Gärten, Theken und Räume aus dem Mip-NeRF360-Datensatz; Spielräume aus dem Deep-Hybrid-Datensatz (für weitere Vergleiche lesen Sie bitte den Originalartikel). In der Figur sind deutliche Unterschiede zu erkennen, die durch unterschiedliche Methoden entstanden sind, etwa die Speichen des Fahrrads, das Glas des Hauses am anderen Ende des Gartens, die Stange des Eisenkorbs und der Teddybär.

Man kann beobachten, dass die Methode in diesem Artikel im Detail mehr Vorteile hat als frühere Methoden.

Sie können einen deutlicheren Unterschied im Video sehen

Darüber hinaus können wir in Abbildung 6 sehen, dass die Methode in diesem Artikel selbst bei 7K-Iterationen (∼ 5 Minuten) funktioniert Erfasst Zugdetails sehr gut. Bei 30.000 Iterationen (ca. 35 Minuten) werden Hintergrundartefakte deutlich reduziert. Bei der Gartenszene ist der Unterschied kaum spürbar und 7K-Iterationen (ca. 8 Minuten) sind bereits von sehr hoher Qualität.

Das Forschungsteam übernimmt die von Mip-NeRF360 vorgeschlagene Methode, unterteilt den Datensatz in Trainings-/Testteile und testet alle 8 Fotos, um konsistente und aussagekräftige Vergleiche durchzuführen, wodurch Fehlerindikatoren generiert und die am häufigsten verwendeten verwendet werden Die in der Literatur verwendeten Standard-PSNR-, L-PIPS- und SSIM-Indikatoren sind in Tabelle 1 für detaillierte Daten aufgeführt.

Tabelle 1 zeigt eine quantitative Bewertung der neuen Methode im Vergleich zu früheren Arbeiten, berechnet anhand von drei Datensätzen. Die mit „†“ gekennzeichneten Ergebnisse werden direkt aus der Originalarbeit übernommen, und die anderen Ergebnisse sind die experimentellen Ergebnisse des Experimentalteams.

PSNR-Score von synthetischem NeRF. Es ist ersichtlich, dass die Methode in diesem Artikel in den meisten Fällen bessere Ergebnisse erzielt und sogar das optimale Niveau erreicht.

Ablationsexperimente

Das Forschungsteam isolierte die verschiedenen Beiträge und getroffenen Algorithmusentscheidungen und erstellte eine Reihe von Experimenten, um ihre Auswirkungen zu messen. Die folgenden Aspekte des Algorithmus wurden getestet: Initialisierung durch SfM, Verdichtungsstrategie, anisotrope Kovarianz, Ermöglichung einer unbegrenzten Anzahl von Patches mit Gradienten und die Verwendung sphärischer Harmonischer. Die folgende Tabelle fasst die quantitativen Auswirkungen jeder Option zusammen.

Werfen wir einen Blick auf einen intuitiveren Effekt.

Die Verwendung von SfM-Punkten für die Initialisierung führt zu besseren Ergebnissen.

Ablationsverdichtungsstrategien in beiden Fällen von Klonen und Teilen

Begrenzen Sie die Anzahl der Punkte, die Farbverläufe akzeptieren, was einen erheblichen Einfluss auf die visuelle Qualität hat. Links: 10 Gaußsche Punkte, die den empfangenen Gradienten begrenzen. Rechts: Die vollständige Methodik dieses Artikels.

Für weitere Details lesen Sie bitte den Originalartikel.

Das obige ist der detaillierte Inhalt vonDas hochauflösende Video ist nicht echt. Die in mehreren Fotos wiedergegebenen 3D-Szenen machen es für Sie schwierig, die Authentizität zu erkennen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!