Neuronales Volumen-Rendering: NeRF und darüber hinaus
Zusammenfassung des Referenzpapiers „NEURAL VOLUME RENDERING: NERF AND BEYOND“, Januar 2021, gemeinsam verfasst von Georgia Tech und MIT.
Neuronales Rendering ist definiert als:
„Eine Tiefenbild- oder Videogenerierungsmethode, die eine explizite oder implizite Steuerung von Szeneneigenschaften wie Beleuchtung, Kameraparameter, Pose, Geometrie, Erscheinungsbild und semantische Struktur ermöglicht“.
Es handelt sich um eine neue datengesteuerte Lösung, die das seit langem bestehende Problem der realistischen Darstellung virtueller Welten in Computergrafiken löst.
Neuronales Volumenrendering bezieht sich auf eine Methode zur Generierung von Bildern oder Videos, indem Strahlen in einer Szene verfolgt und eine Art Integration entlang der Länge der Strahlen durchgeführt wird. Typischerweise kodiert ein neuronales Netzwerk wie ein mehrschichtiges Perzeptron Funktionen von den 3D-Koordinaten von Licht bis hin zu Dichte und Farbe usw. und integriert sie, um ein Bild zu erzeugen.
Die direkte Pionierarbeit des neuronalen Volumenrenderings ist die Methode zur Definition impliziter Oberflächendarstellung mithilfe neuronaler Netze. Viele 3D-fähige Bilderzeugungsmethoden verwenden Voxel, Gitter, Punktwolken oder andere Darstellungen, oft basierend auf Faltungsarchitekturen. Aber auf der CVPR 2019 wurde in mindestens drei Artikeln die Verwendung neuronaler Netze als Skalarfunktionsnäherungen zur Definition von Belegungs- und/oder vorzeichenbehafteten Distanzfunktionen (SDF) vorgestellt.
- Belegungsnetzwerke führen koordinatenbasiertes implizites Belegungslernen ein. Ein aus 5 ResNet-Blöcken bestehendes Netzwerk, das Merkmalsvektoren und 3D-Punkte als Eingabe verwendet, sagt die binäre Belegung voraus.
- IM-NET verwendet einen 6-schichtigen MLP-Decoder, um die binäre Belegung anhand von Merkmalsvektoren und 3D-Koordinaten vorherzusagen. Kann zur automatischen Kodierung, Formgenerierung (GAN-Stil) und Einzelansichtsrekonstruktion verwendet werden.
- DeepSDF extrahiert die vorzeichenbehaftete Distanzfunktion direkt aus einer 3D-Koordinate und einem latenten Code. Es verwendet ein 8-Layer-MPL mit Hop-Verbindungen zu Layer 4.
- PIFu zeigt, dass durch die Neuprojektion von 3D-Punkten in pixelausgerichtete Merkmalsdarstellungen besonders detaillierte implizite Modelle erlernt werden können. Dies wird in PixelNeRF wiederholt und der Effekt ist sehr gut.
Andere Ansätze zur Verwendung impliziter Funktionen sind:
- Structured Implicit Functions (2019) hat gezeigt, dass es möglich ist, diese impliziten Darstellungen zu kombinieren, z. B. einfach zu summieren.
- CvxNet (2020) kombiniert vorzeichenbehaftete Distanzfunktionen durch die Übernahme von punktweisem Max (3D).
- BSP Network (2020) ähnelt CvxNet in vielerlei Hinsicht, verwendet jedoch im Kern die binäre Raumpartitionierung, was zu einer Methode zur lokalen Ausgabe von Polygonnetzen führt, anstatt teure Vernetzungsmethoden zu verwenden.
- Deep Local Shapes (2020) speichert latente Deep-SDF-Codes in Voxelgittern, um größere erweiterte Szenen darzustellen.
- Scene Representation Networks (2019) oder SRN ist DeepSDF architektonisch sehr ähnlich, fügt jedoch einen differenzierbaren Ray-Marching-Algorithmus hinzu, um den nächsten Schnittpunkt der gelernten impliziten Oberfläche zu finden, und fügt MLP-Regressionsfarbe hinzu, die aus Bildern lernen kann mehrere Posen.
- Differentiable Volumetric Rendering (2019) zeigte, dass implizite Szenendarstellungen mit differenzierbaren Renderern kombiniert werden können, die aus Bildern trainiert werden können, ähnlich wie SRN. Der Begriff „Volumenrenderer“ wird verwendet, aber der eigentliche Hauptbeitrag ist ein cleverer Trick, der die Tiefenberechnung impliziter Oberflächen differenzierbar macht: keine Integration über das Volumen.
- Implicit Differentiable Renderer (2020) bietet ähnliche Techniken, jedoch mit einer komplexeren Oberflächenlichtfelddarstellung, was zeigt, dass es Kamerapositionen während des Trainings optimieren kann.
- Neural Articulated Shape Approximation (2020) oder NASA, die implizite Funktionen zur Darstellung gemeinsamer Ziele wie des menschlichen Körpers bildet.
Nicht völlig aus dem Nichts, obwohl es immer noch auf einer (verzerrten) Voxel-basierten Darstellung basiert, führt das Neural Volumes-Papier Volumenrendering für die Ansichtssynthese sowie die Regression von Dichte und Farbe von 3D-Volumina ein. Der latente Code wird in ein 3D-Volumen dekodiert und durch Volumenrendering wird ein neues Bild erhalten.
Es wird vorgeschlagen, an jeder Position im 3D-Raum eine Volumendarstellung bestehend aus Opazität und Farbe zu verwenden, wobei die Wiedergabe durch integrale Projektion erreicht wird. Während des Optimierungsprozesses verteilt diese halbtransparente geometrische Darstellung die Gradienteninformationen entlang des integrierenden Strahls, wodurch der Konvergenzbereich effektiv erweitert und so die Entdeckung guter Lösungen ermöglicht wird.
Der Artikel, der für alle Diskussionen gesorgt hat, ist der Artikel „Neural Radiation Field NeRF“ (2020). Im Wesentlichen wird eine tiefe SDF-Architektur verwendet, aber anstelle einer Regression der signierten Distanzfunktion (SDF) werden Dichte und Farbe zurückgegeben. Anschließend wird eine (leicht differenzierbare) numerische Integrationsmethode verwendet, um den Rendering-Schritt für das reale Volumen anzunähern.
Das NeRF-Modell speichert volumetrische Szenendarstellungen als Gewichte von MLPs und wird auf vielen Bildern mit bekannten Posen trainiert. Durch die Integration von Dichte und Farbe in regelmäßigen Abständen entlang jedes Betrachtungsstrahls wird eine neue Ansicht gerendert.
Einer der Gründe für die sehr detaillierte Darstellung von NeRF ist die Verwendung periodischer Aktivierungsfunktionen oder Fourier-Funktionen, um 3D-Punkte auf einem Strahl und die zugehörige Blickrichtung zu kodieren. Diese Innovation wurde später auf mehrschichtige Netzwerke mit periodischen Aktivierungsfunktionen ausgeweitet, nämlich SIREN (SInusoidal-REpresentation Networks). Beide Artikel wurden in NeurIPS 2020 veröffentlicht.
Man kann sagen, dass die Wirkung des NeRF-Papiers in seiner brutalen Einfachheit liegt: Nur ein MLP gibt Dichte und Farbe in 5D-Koordinaten aus. Es gibt einiges an Schnickschnack, insbesondere die Positionskodierung und das geschichtete Sampling-Schema, aber es ist überraschend, dass eine so einfache Architektur so beeindruckende Ergebnisse liefern kann. Dennoch bietet das ursprüngliche NeRF viele Verbesserungsmöglichkeiten: Sowohl das Training als auch das Rendering sind langsam.
- kann nur statische Szenen darstellen.
- Feste Beleuchtung.
- Die trainierte NeRF-Darstellung lässt sich nicht auf andere Szenarien/Ziele verallgemeinern.
- Einige Projekte/Papiere zielen darauf ab, die eher langsamen Trainings- und Renderzeiten des ursprünglichen NeRF-Papiers zu verbessern.
JaxNeRF (2020) mit JAX-Unterstützung (
- https://
- github.com/google/jax#🎜🎜 #) Training mit mehreren Geräten, bei dem Tage zu Stunden werden, was die Geschwindigkeit erheblich beschleunigt. AutoInt (2020) lernt direkt Volumenintegrale und beschleunigt so das Rendern erheblich. Learned Initialization (2020) nutzt Meta-Learning, um eine gute Gewichtsinitialisierung zu finden und das Training zu beschleunigen.
- DeRF (2020) zerlegt die Szene in einen „weichen Voronoi-Graphen“ und nutzt dabei die Beschleunigerspeicherarchitektur.
- NERF++ (2020) schlägt vor, einen separaten NERF zu verwenden, um den Hintergrund zu modellieren und unendliche Szenen zu verarbeiten.
- Neural Sparse Voxel Fields (2020) organisiert Szenen in spärlichen Voxel-Octrees und erhöht so die Rendering-Geschwindigkeit um das Zehnfache.
- Mindestens vier Arbeiten konzentrieren sich auf dynamische Szenen:
- Neural Scene Flow Fields (2020) nimmt ein monokulares Video mit bekannter Kameraposition als Eingabe, Tiefenvorhersage als Prior auf und der Ausgabeszenenfluss wird für die Verwendung in der Verlustfunktion reguliert.
- Spatial-Temporal Neural Irradiance Field (2020) nutzt die Zeit nur als zusätzlichen Input. Um diese Methode erfolgreich zum Rendern von Videos aus beliebigen Blickwinkeln (aus RGB-D-Daten!) zu trainieren, muss die Verlustfunktion sorgfältig ausgewählt werden.
- NeRFlow (2020) verwendet Deformations-MLP zur Modellierung des Szenenflusses und integriert über den Zeitbereich, um die endgültige Deformation zu erhalten.
- NR NeRF (2020) verwendet auch deformierbares MLP, um nicht starre Szenen zu modellieren. Es basiert nicht auf vorberechneten Szeneninformationen außer Kameraparametern, erzeugt aber eine etwas weniger klare Ausgabe als Nerfies.
- STaR (2021) verwendet Multi-View-RGB-Video als Eingabe und zerlegt die Szene in statische und dynamische Volumen. Derzeit wird jedoch nur ein bewegliches Ziel unterstützt.
- Es gibt auch zwei Arbeiten, die sich auf das Porträt/Porträt der Person konzentrieren.
- Ein weiterer Aspekt, bei dem Methoden im NeRF-Stil verbessert wurden, ist die Handhabung der Beleuchtung, oft durch latenten Code, der zum erneuten Beleuchten von Szenen verwendet werden kann.
- Neuronale Reflexionsfelder (2020) Verbessern Sie NeRF durch Hinzufügen lokaler Reflexionsmodelle zusätzlich zur Dichte. Es liefert beeindruckende Nachbeleuchtungsergebnisse, obwohl es von einer einzelnen Punktlichtquelle stammt.
- NeRF-W (2020) ist einer der ersten Nachfolger von NeRF und optimiert den latenten Oberflächencode, um neuronale Szenendarstellungen aus weniger kontrollierten Multi-View-Sammlungen lernen zu können.
- Latente Codes können auch zum Codieren von Formprioritäten verwendet werden:
- GRAF (2020) oder „Generative Model for Radiation Fields“ ist eine bedingte Variante von NeRF, die latente Codes für Aussehen und Form hinzufügt und gleichzeitig durch Training im GAN-Stil eine Blickpunktinvarianz erreicht.
- pi GAN (2020), ähnlich wie GRAF, verwendet jedoch eine NeRF-Implementierung im SIREN-Stil, bei der jede Schicht durch einen anderen MLP-Ausgang unter Verwendung latenter Codes moduliert wird.
- Nichts davon lässt sich wohl auf große Szenen mit vielen Zielen skalieren. Ein aufregender neuer Bereich ist daher die Gruppierung von Zielen in volumengerenderten Szenen.
-
- Object-Centric Neural Scene Rendering (2020) erlernt eine „Objektstreufunktion“ in einem objektzentrierten Koordinatensystem, wodurch synthetische Szenen mithilfe von Monte Carlo gerendert und realistisch beleuchtet werden können.
- GIRAFFE (2020) unterstützt die Synthese durch die Ausgabe von Merkmalsvektoren anstelle von Farben aus einem objektzentrierten NeRF-Modell, das dann durch Mittelung synthetisiert und mit niedriger Auflösung als 2D-Feature-Maps gerendert wird, um dann in 2D ein Upsampling durchzuführen .
- Neural Scene Graphs (2020) unterstützt mehrere objektzentrierte NeRF-Modelle in Szenendiagrammen.
Schließlich verwendet mindestens ein Artikel NeRF-Rendering im Zusammenhang mit der (bekannten) Zielpositionsschätzung.
- iNeRF (2020) verwendet NeRF MLP in einem Posenschätzungs-Framework und ist sogar in der Lage, die Ansichtssynthese auf Standarddatensätzen durch die Feinabstimmung von Posen zu verbessern. Allerdings kann es noch nicht mit Beleuchtung umgehen.
Es ist alles andere als klar, ob neuronale Rendering- und NeRF-Stilpapiere letztendlich erfolgreich sein werden. Auch wenn es in der realen Welt Rauch, Dunst, Transparenz usw. gibt, wird das meiste Licht letztendlich von Oberflächen in das Auge gestreut. Netzwerke im NeRF-Stil mögen aufgrund des volumenbasierten Ansatzes leicht zu trainieren sein, es ist jedoch ein Trend zu beobachten, bei dem in Arbeiten versucht wird, Oberflächen nach der Konvergenz zu entdecken oder zu erraten. Tatsächlich ist das geschichtete Stichprobenschema im ursprünglichen NeRF-Papier genau das. Daher kann man beim Lernen von NeRF leicht erkennen, dass man zumindest zum Zeitpunkt der Inferenz zu impliziten Darstellungen oder sogar Voxeln im SDF-Stil zurückkehrt.
Das obige ist der detaillierte Inhalt vonNeuronales Volumen-Rendering: NeRF und darüber hinaus. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Um eine Datentabelle mithilfe von PHPMYADMIN zu erstellen, sind die folgenden Schritte unerlässlich: Stellen Sie eine Verbindung zur Datenbank her und klicken Sie auf die neue Registerkarte. Nennen Sie die Tabelle und wählen Sie die Speichermotor (innoDB empfohlen). Fügen Sie Spaltendetails hinzu, indem Sie auf die Taste der Spalte hinzufügen, einschließlich Spaltenname, Datentyp, ob Nullwerte und andere Eigenschaften zuzulassen. Wählen Sie eine oder mehrere Spalten als Primärschlüssel aus. Klicken Sie auf die Schaltfläche Speichern, um Tabellen und Spalten zu erstellen.

Das Erstellen einer Oracle -Datenbank ist nicht einfach, Sie müssen den zugrunde liegenden Mechanismus verstehen. 1. Sie müssen die Konzepte von Datenbank und Oracle DBMS verstehen. 2. Beherrschen Sie die Kernkonzepte wie SID, CDB (Containerdatenbank), PDB (Pluggable -Datenbank); 3.. Verwenden Sie SQL*Plus, um CDB zu erstellen und dann PDB zu erstellen. Sie müssen Parameter wie Größe, Anzahl der Datendateien und Pfade angeben. 4. Erweiterte Anwendungen müssen den Zeichensatz, den Speicher und andere Parameter anpassen und die Leistungsstimmung durchführen. 5. Achten Sie auf Speicherplatz, Berechtigungen und Parametereinstellungen und überwachen und optimieren Sie die Datenbankleistung kontinuierlich. Nur indem Sie es geschickt beherrschen, müssen Sie die Erstellung und Verwaltung von Oracle -Datenbanken wirklich verstehen.

Um eine Oracle -Datenbank zu erstellen, besteht die gemeinsame Methode darin, das dbca -grafische Tool zu verwenden. Die Schritte sind wie folgt: 1. Verwenden Sie das DBCA -Tool, um den DBNAME festzulegen, um den Datenbanknamen anzugeben. 2. Setzen Sie Syspassword und SystemPassword auf starke Passwörter. 3.. Setzen Sie Charaktere und NationalCharacterset auf AL32UTF8; 4. Setzen Sie MemorySize und tablespacesize, um sie entsprechend den tatsächlichen Bedürfnissen anzupassen. 5. Geben Sie den Logfile -Pfad an. Erweiterte Methoden werden manuell mit SQL -Befehlen erstellt, sind jedoch komplexer und anfällig für Fehler. Achten Sie auf die Kennwortstärke, die Auswahl der Zeichensatz, die Größe und den Speicher von Tabellenräumen

Der Kern von Oracle SQL -Anweisungen ist ausgewählt, einfügen, aktualisiert und löschen sowie die flexible Anwendung verschiedener Klauseln. Es ist wichtig, den Ausführungsmechanismus hinter der Aussage wie die Indexoptimierung zu verstehen. Zu den erweiterten Verwendungen gehören Unterabfragen, Verbindungsabfragen, Analysefunktionen und PL/SQL. Häufige Fehler sind Syntaxfehler, Leistungsprobleme und Datenkonsistenzprobleme. Best Practices für Leistungsoptimierung umfassen die Verwendung geeigneter Indizes, die Vermeidung von Auswahl *, optimieren Sie, wo Klauseln und gebundene Variablen verwenden. Das Beherrschen von Oracle SQL erfordert Übung, einschließlich des Schreibens von Code, Debuggen, Denken und Verständnis der zugrunde liegenden Mechanismen.

Feldbetriebshandbuch in MySQL: Felder hinzufügen, ändern und löschen. Feld hinzufügen: Alter table table_name hinzufügen column_name data_type [nicht null] [Standard default_value] [Primärschlüssel] [auto_increment] Feld ändern: Alter table table_name Ändern Sie Column_Name Data_type [nicht null] [diffault default_value] [Primärschlüssel] [Primärschlüssel]

Die Integritätsbeschränkungen von Oracle -Datenbanken können die Datengenauigkeit sicherstellen, einschließlich: nicht Null: Nullwerte sind verboten; Einzigartig: Einzigartigkeit garantieren und einen einzelnen Nullwert ermöglichen; Primärschlüssel: Primärschlüsselbeschränkung, Stärkung der einzigartigen und verboten Nullwerte; Fremdschlüssel: Verwalten Sie die Beziehungen zwischen Tabellen, Fremdschlüssel beziehen sich auf Primärtabellen -Primärschlüssel. Überprüfen Sie: Spaltenwerte nach Bedingungen begrenzen.

Verschachtelte Anfragen sind eine Möglichkeit, eine andere Frage in eine Abfrage aufzunehmen. Sie werden hauptsächlich zum Abrufen von Daten verwendet, die komplexe Bedingungen erfüllen, mehrere Tabellen assoziieren und zusammenfassende Werte oder statistische Informationen berechnen. Beispiele hierfür sind zu findenen Mitarbeitern über den überdurchschnittlichen Löhnen, das Finden von Bestellungen für eine bestimmte Kategorie und die Berechnung des Gesamtbestellvolumens für jedes Produkt. Beim Schreiben verschachtelter Abfragen müssen Sie folgen: Unterabfragen schreiben, ihre Ergebnisse in äußere Abfragen schreiben (auf Alias oder als Klauseln bezogen) und optimieren Sie die Abfrageleistung (unter Verwendung von Indizes).

Oracle ist das weltweit größte Softwareunternehmen für Datenbankverwaltungssystem (DBMS). Zu den Hauptprodukten gehören die folgenden Funktionen: Entwicklungstools für relationale Datenbankverwaltungssysteme (Oracle Database) (Oracle Apex, Oracle Visual Builder) Middleware (Oracle Weblogic Server, Oracle Soa Suite) Cloud -Dienst (Oracle Cloud Infrastructure) Analyse und Business Intelligence (Oracle Analytic
