CVPR 2024-Highscore-Papier: Neues generatives Bearbeitungsframework GenN2N, das NeRF-Konvertierungsaufgaben vereinheitlicht-KI-php.cn

Heim

CVPR 2024-Highscore-Papier: Neues generatives Bearbeitungsframework GenN2N, das NeRF-Konvertierungsaufgaben vereinheitlicht

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 19, 2024 pm 09:40 PM

git 工程 genn2n

CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

Die AIxiv-Kolumne unserer Website ist eine Kolumne über akademische und technische Inhalte. In den letzten Jahren hat die AIxiv-Kolumne auf unserer Website mehr als 2.000 Inhalte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Die E-Mail-Adresse für die Einreichung lautet liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com.

Forscher der Hong Kong University of Science and Technology und der Tsinghua University schlugen „GenN2N“ vor, ein einheitliches generatives NeRF-zu-NeRF-Konvertierungsframework, das für verschiedene NeRF-Konvertierungsaufgaben wie textgesteuerte NeRF-Bearbeitung und Schattierung geeignet ist , Superauflösung, Reparatur usw., die Leistung ist extrem gut!

CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

Papieradresse: https://arxiv.org/abs/2404.02788
Papierhomepage: https://xiangyueliu.github.io/GenN2N/
Git Hub-Adresse: https://github.com/Lxiangyue/GenN2N
Papiertitel: GenN2N: Generative NeRF2NeRF Translation

In den letzten Jahren haben Neural Radiation Fields (NeRF) aufgrund ihrer Kompaktheit viel Aufmerksamkeit auf sich gezogen , hohe Qualität und Vielseitigkeit Die Bereiche 3D-Rekonstruktion, 3D-Generierung und neue Perspektivensynthese haben große Aufmerksamkeit erregt. Sobald jedoch eine NeRF-Szene erstellt wurde, mangelt es diesen Methoden oft an weiterer Kontrolle über die resultierende Geometrie und das Erscheinungsbild. Daher ist NeRF Editing in letzter Zeit zu einem Forschungsschwerpunkt geworden, der Aufmerksamkeit verdient.

Aktuelle NeRF-Bearbeitungsmethoden sind in der Regel aufgabenspezifisch, wie z. B. textgesteuerte Bearbeitung, Superauflösung, Inpainting und Kolorierung von NeRF. Diese Methoden erfordern ein hohes Maß an aufgabenspezifischen Domänenkenntnissen. Im Bereich der 2D-Bildbearbeitung ist es zu einem Trend geworden, universelle Bild-zu-Bild-Konvertierungsmethoden zu entwickeln. Beispielsweise wird das generative 2D-Modell Stable Difussion zur Unterstützung der multifunktionalen Bildbearbeitung verwendet. Daher schlagen wir eine universelle NeRF-Bearbeitung unter Verwendung zugrunde liegender generativer 2D-Modelle vor.

Eine damit verbundene Herausforderung ist die Darstellungslücke zwischen NeRF- und 2D-Bildern, insbesondere da Bildbearbeitungsprogramme häufig mehrere inkonsistente Bearbeitungen für unterschiedliche Blickwinkel generieren. Eine aktuelle textbasierte NeRF-Bearbeitungsmethode, Instruct-NeRF2NeRF, untersucht dies. Es verwendet den Prozess „Rendering-Bearbeitung-Aggregation“, um die NeRF-Szene schrittweise zu aktualisieren, indem nach und nach Bilder mit mehreren Ansichten gerendert, diese Bilder bearbeitet und die bearbeiteten Bilder in NeRF aggregiert werden. Diese Bearbeitungsmethode kann jedoch nach umfangreicher Optimierung für spezifische Bearbeitungsanforderungen nur dann ein bestimmtes Bearbeitungsergebnis generieren, wenn der Benutzer nicht zufrieden ist, müssen iterative Versuche wiederholt werden.

Daher haben wir „GenN2N“ vorgeschlagen, ein allgemeines NeRF-zu-NeRF-Framework, das für eine Vielzahl von NeRF-Bearbeitungsaufgaben geeignet ist. Sein Kern besteht darin, einen generativen Ansatz zu verwenden, um den Multilösungscharakter des Bearbeitungsprozesses zu charakterisieren. so dass Mithilfe der generativen Bearbeitung auf einfache Weise eine große Anzahl von Bearbeitungsergebnissen generiert werden kann, die den Anforderungen der Benutzer zur Auswahl entsprechen.

Im Kernteil von GenN2N wird 1) das generative Framework von 3D VAE-GAN eingeführt, wobei VAE verwendet wird, um den gesamten Bearbeitungsraum darzustellen und alle möglichen 3D-NeRF-Bearbeitungsverteilungen zu lernen, die einem Satz eingegebener 2D-Bearbeitungsbilder entsprechen , und verwenden Sie GAN, um eine angemessene Überwachung für die Bearbeitung verschiedener Ansichten von NeRF bereitzustellen, um die Authentizität der Bearbeitungsergebnisse sicherzustellen. 2) Verwenden Sie kontrastives Lernen, um die Bearbeitungsinhalte und -perspektiven zu entkoppeln, um die Konsistenz der Bearbeitungsinhalte zwischen verschiedenen Perspektiven sicherzustellen , Der Benutzer kann durch einfaches zufälliges Abtasten mehrerer Bearbeitungscodes aus dem bedingten Generierungsmodell verschiedene 3D-Bearbeitungsergebnisse generieren, die dem Bearbeitungsziel entsprechen.

Im Vergleich zu SOTA-Methoden für verschiedene NeRF-Bearbeitungsaufgaben (ICCV2023 Oral usw.) ist GenN2N bestehenden Methoden hinsichtlich Bearbeitungsqualität, Vielfalt, Effizienz usw. überlegen.

Methodeneinführung

Wir führen zunächst eine 2D-Bildbearbeitung durch und aktualisieren diese 2D-Bearbeitungen dann auf 3D-NeRF, um eine generative NeRF-zu-NeRF-Konvertierung zu erreichen.

A. Implicit Distill (Latent Distill)

Wir verwenden das Latent Distill Module als Encoder von VAE, um einen impliziten Bearbeitungscode für jedes bearbeitete Bild zu lernen und diesen im Bearbeitungscode für die NeRF-zu-NeRF-Konvertierung zu übergeben steuert generierte Inhalte. Alle Bearbeitungscodes gehorchen einer guten Normalverteilung unter der Einschränkung des KL-Verlusts für eine bessere Stichprobenerhebung. Um den Bearbeitungsinhalt und die Perspektive zu entkoppeln, haben wir das kontrastive Lernen sorgfältig entworfen, um zu fördern, dass die Bearbeitungscodes von Bildern mit demselben Bearbeitungsstil, aber unterschiedlichen Perspektiven ähnlich sind und die Bearbeitungscodes von Bildern mit unterschiedlichen Bearbeitungsstilen, aber derselben Perspektive, weit entfernt sind voneinander weg.

B.NeRF-zu-NeRF-Konvertierung (übersetzt NeRF)

Wir verwenden die NeRF-zu-NeRF-Übersetzung als Decoder von VAE, der den Bearbeitungscode als Eingabe verwendet und das ursprüngliche NeRF modifiziert für ein umgebautes NeRF. Wir haben Restschichten zwischen den verborgenen Schichten des ursprünglichen NeRF-Netzwerks hinzugefügt. Diese Restschichten verwenden den Bearbeitungscode als Eingabe, um die Neuronen der verborgenen Schicht zu modulieren, sodass das konvertierte NeRF nicht nur die ursprünglichen NeRF-Informationen beibehalten, sondern auch die 3D-Konvertierung steuern kann basierend auf dem Bearbeitungscode. Gleichzeitig dient die NeRF-zu-NeRF-Übersetzung auch als Generator für die Teilnahme am generativen gegnerischen Training. Durch Generieren statt Optimieren können wir mehrere Konvertierungsergebnisse gleichzeitig erhalten und so die NeRF-Konvertierungseffizienz und Ergebnisvielfalt erheblich verbessern.

C. Bedingter Diskriminator

Die in NeRF konvertierten gerenderten Bilder bilden den zu unterscheidenden Generationsraum. Die Bearbeitungsstile und Rendering-Perspektiven dieser Bilder sind unterschiedlich, was den Generationsraum sehr komplex macht . . Daher stellen wir eine Bedingung als zusätzliche Information für den Diskriminator bereit. Insbesondere wenn der Diskriminator das vom Generator gerenderte Bild CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

(negative Probe) oder das bearbeitete Bild CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

(positive Probe) in den Trainingsdaten identifiziert, wählen wir ein bearbeitetes Bild CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

derselben Perspektive aus den Trainingsdaten als Bedingung aus, was das verhindert Der Diskriminator wird nicht durch perspektivische Faktoren bei der Unterscheidung positiver und negativer Proben beeinträchtigt.

D. Inferenz

Nach der GenN2N-Optimierung können Benutzer zufällig Bearbeitungscodes aus der Normalverteilung auswählen und den konvertierten NeRF eingeben, um qualitativ hochwertigen, mehrfach bearbeiteten 3D-NeRF zu generieren Szenen.

Experimente

Wir haben umfangreiche Experimente zu einer Vielzahl von NeRF-zu-NeRF-Aufgaben durchgeführt, darunter textgesteuerte NeRF-Bearbeitung, Kolorierung, Superauflösung, Inpainting usw. Experimentelle Ergebnisse belegen die überlegene Bearbeitungsqualität, Multi-View-Konsistenz, generierte Vielfalt und Bearbeitungseffizienz von GenN2N.

A. Textbasierte NeRF-Bearbeitung

Vergleichsexperimente

Unsere Methode wird qualitativ und quantitativ verglichen mit SOTA-Methoden für verschiedene spezifische NeRF-Aufgaben ( einschließlich textgesteuerter Bearbeitung, Kolorierung, Superauflösung und Inpainting usw.). Die Ergebnisse zeigen, dass GenN2N als allgemeines Framework eine ebenso gute oder bessere Leistung erbringt als aufgabenspezifisches SOTA, während die Bearbeitungsergebnisse eine größere Vielfalt aufweisen (im Folgenden ist ein Vergleich zwischen GenN2N und Instruct-NeRF2NeRF für die textbasierte NeRF-Bearbeitungsaufgabe aufgeführt). ).

A. Textbasierte NeRF-Bearbeitung

Weitere Experimente und Methoden finden Sie auf der Paper-Homepage.

Teamvorstellung

Dieser Artikel stammt vom Tan Ping-Team der Hong Kong University of Science and Technology, dem 3DVICI Lab der Tsinghua University, dem Shanghai Artificial Intelligence Laboratory und dem Shanghai Qizhi Research Institute Aufsatz ist Liu, ein Student der Hong Kong University of Science and Technology, Xue Han, ein Student der Tsinghua University, Luo Kunming, ein Student der Hong Kong University of Science and Technology, und die Dozenten sind Lehrer Yi Li aus Tsinghua Universität und Lehrer Tan Ping von der Hong Kong University of Science and Technology.

Das obige ist der detaillierte Inhalt vonCVPR 2024-Highscore-Papier: Neues generatives Bearbeitungsframework GenN2N, das NeRF-Konvertierungsaufgaben vereinheitlicht. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7476

CakePHP-Tutorial

1377

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Welche Bibliotheken werden für die Operationen der schwimmenden Punktzahl in Go verwendet? Apr 02, 2025 pm 02:06 PM

In der Bibliothek, die für den Betrieb der Schwimmpunktnummer in der GO-Sprache verwendet wird, wird die Genauigkeit sichergestellt, wie die Genauigkeit ...

So führen Sie das H5 -Projekt aus Apr 06, 2025 pm 12:21 PM

Ausführen des H5 -Projekts erfordert die folgenden Schritte: Installation der erforderlichen Tools wie Webserver, Node.js, Entwicklungstools usw. Erstellen Sie eine Entwicklungsumgebung, erstellen Sie Projektordner, initialisieren Sie Projekte und schreiben Sie Code. Starten Sie den Entwicklungsserver und führen Sie den Befehl mit der Befehlszeile aus. Vorschau des Projekts in Ihrem Browser und geben Sie die Entwicklungsserver -URL ein. Veröffentlichen Sie Projekte, optimieren Sie Code, stellen Sie Projekte bereit und richten Sie die Webserverkonfiguration ein.

Gitee Pages statische Website -Bereitstellung fehlgeschlagen: Wie können Sie einzelne Dateien 404 Fehler beheben und beheben? Apr 04, 2025 pm 11:54 PM

GitePages statische Website -Bereitstellung fehlgeschlagen: 404 Fehlerbehebung und Auflösung bei der Verwendung von Gitee ...

Welche Bibliotheken in GO werden von großen Unternehmen entwickelt oder von bekannten Open-Source-Projekten bereitgestellt? Apr 02, 2025 pm 04:12 PM

Welche Bibliotheken in GO werden von großen Unternehmen oder bekannten Open-Source-Projekten entwickelt? Bei der Programmierung in Go begegnen Entwickler häufig auf einige häufige Bedürfnisse, ...

Wie gibt ich die mit dem Modell in Beego Orm zugeordnete Datenbank an? Apr 02, 2025 pm 03:54 PM

Wie kann man im Beegoorm -Framework die mit dem Modell zugeordnete Datenbank angeben? In vielen BeEGO -Projekten müssen mehrere Datenbanken gleichzeitig betrieben werden. Bei Verwendung von BeEGO ...

Bedarf die Produktion von H5 -Seiten eine kontinuierliche Wartung? Apr 05, 2025 pm 11:27 PM

Die H5 -Seite muss aufgrund von Faktoren wie Code -Schwachstellen, Browserkompatibilität, Leistungsoptimierung, Sicherheitsaktualisierungen und Verbesserungen der Benutzererfahrung kontinuierlich aufrechterhalten werden. Zu den effektiven Wartungsmethoden gehören das Erstellen eines vollständigen Testsystems, die Verwendung von Versionstools für Versionskontrolle, die regelmäßige Überwachung der Seitenleistung, das Sammeln von Benutzern und die Formulierung von Wartungsplänen.

Wie löste ich das Problem des Typs des user_id -Typs bei der Verwendung von Redis -Stream, um Nachrichtenwarteschlangen in GO -Sprache zu implementieren? Apr 02, 2025 pm 04:54 PM

Das Problem der Verwendung von RETISTREAM zur Implementierung von Nachrichtenwarteschlangen in der GO -Sprache besteht darin, die Go -Sprache und Redis zu verwenden ...

Python Hourglass Graph Drawing: Wie vermeiden Sie variable undefinierte Fehler? Apr 01, 2025 pm 06:27 PM

Erste Schritte mit Python: Hourglas -Grafikzeichnung und Eingabeüberprüfung In diesem Artikel wird das Problem der Variablendefinition gelöst, das von einem Python -Anfänger im Hourglass -Grafikzeichnungsprogramm auftritt. Code...

See all articles