Heim > Technologie-Peripheriegeräte > KI > CVPR 2024-Highscore-Papier: Neues generatives Bearbeitungsframework GenN2N, das NeRF-Konvertierungsaufgaben vereinheitlicht

CVPR 2024-Highscore-Papier: Neues generatives Bearbeitungsframework GenN2N, das NeRF-Konvertierungsaufgaben vereinheitlicht

WBOY
Freigeben: 2024-04-19 21:40:09
nach vorne
1236 Leute haben es durchsucht

CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

Die AIxiv-Kolumne unserer Website ist eine Kolumne über akademische und technische Inhalte. In den letzten Jahren hat die AIxiv-Kolumne auf unserer Website mehr als 2.000 Inhalte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Die E-Mail-Adresse für die Einreichung lautet liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com.


Forscher der Hong Kong University of Science and Technology und der Tsinghua University schlugen „GenN2N“ vor, ein einheitliches generatives NeRF-zu-NeRF-Konvertierungsframework, das für verschiedene NeRF-Konvertierungsaufgaben wie textgesteuerte NeRF-Bearbeitung und Schattierung geeignet ist , Superauflösung, Reparatur usw., die Leistung ist extrem gut! CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

  • Papieradresse: https://arxiv.org/abs/2404.02788
  • Papierhomepage: https://xiangyueliu.github.io/GenN2N/
  • Git Hub-Adresse: https://github.com/Lxiangyue/GenN2N
  • Papiertitel: GenN2N: Generative NeRF2NeRF Translation

In den letzten Jahren haben Neural Radiation Fields (NeRF) aufgrund ihrer Kompaktheit viel Aufmerksamkeit auf sich gezogen , hohe Qualität und Vielseitigkeit Die Bereiche 3D-Rekonstruktion, 3D-Generierung und neue Perspektivensynthese haben große Aufmerksamkeit erregt. Sobald jedoch eine NeRF-Szene erstellt wurde, mangelt es diesen Methoden oft an weiterer Kontrolle über die resultierende Geometrie und das Erscheinungsbild. Daher ist NeRF Editing in letzter Zeit zu einem Forschungsschwerpunkt geworden, der Aufmerksamkeit verdient.

Aktuelle NeRF-Bearbeitungsmethoden sind in der Regel aufgabenspezifisch, wie z. B. textgesteuerte Bearbeitung, Superauflösung, Inpainting und Kolorierung von NeRF. Diese Methoden erfordern ein hohes Maß an aufgabenspezifischen Domänenkenntnissen. Im Bereich der 2D-Bildbearbeitung ist es zu einem Trend geworden, universelle Bild-zu-Bild-Konvertierungsmethoden zu entwickeln. Beispielsweise wird das generative 2D-Modell Stable Difussion zur Unterstützung der multifunktionalen Bildbearbeitung verwendet. Daher schlagen wir eine universelle NeRF-Bearbeitung unter Verwendung zugrunde liegender generativer 2D-Modelle vor.

Eine damit verbundene Herausforderung ist die Darstellungslücke zwischen NeRF- und 2D-Bildern, insbesondere da Bildbearbeitungsprogramme häufig mehrere inkonsistente Bearbeitungen für unterschiedliche Blickwinkel generieren. Eine aktuelle textbasierte NeRF-Bearbeitungsmethode, Instruct-NeRF2NeRF, untersucht dies. Es verwendet den Prozess „Rendering-Bearbeitung-Aggregation“, um die NeRF-Szene schrittweise zu aktualisieren, indem nach und nach Bilder mit mehreren Ansichten gerendert, diese Bilder bearbeitet und die bearbeiteten Bilder in NeRF aggregiert werden. Diese Bearbeitungsmethode kann jedoch nach umfangreicher Optimierung für spezifische Bearbeitungsanforderungen nur dann ein bestimmtes Bearbeitungsergebnis generieren, wenn der Benutzer nicht zufrieden ist, müssen iterative Versuche wiederholt werden.

Daher haben wir „GenN2N“ vorgeschlagen, ein allgemeines NeRF-zu-NeRF-Framework, das für eine Vielzahl von NeRF-Bearbeitungsaufgaben geeignet ist. Sein Kern besteht darin, einen generativen Ansatz zu verwenden, um den Multilösungscharakter des Bearbeitungsprozesses zu charakterisieren. so dass Mithilfe der generativen Bearbeitung auf einfache Weise eine große Anzahl von Bearbeitungsergebnissen generiert werden kann, die den Anforderungen der Benutzer zur Auswahl entsprechen.

Im Kernteil von GenN2N wird 1) das generative Framework von 3D VAE-GAN eingeführt, wobei VAE verwendet wird, um den gesamten Bearbeitungsraum darzustellen und alle möglichen 3D-NeRF-Bearbeitungsverteilungen zu lernen, die einem Satz eingegebener 2D-Bearbeitungsbilder entsprechen , und verwenden Sie GAN, um eine angemessene Überwachung für die Bearbeitung verschiedener Ansichten von NeRF bereitzustellen, um die Authentizität der Bearbeitungsergebnisse sicherzustellen. 2) Verwenden Sie kontrastives Lernen, um die Bearbeitungsinhalte und -perspektiven zu entkoppeln, um die Konsistenz der Bearbeitungsinhalte zwischen verschiedenen Perspektiven sicherzustellen , Der Benutzer kann durch einfaches zufälliges Abtasten mehrerer Bearbeitungscodes aus dem bedingten Generierungsmodell verschiedene 3D-Bearbeitungsergebnisse generieren, die dem Bearbeitungsziel entsprechen.

Im Vergleich zu SOTA-Methoden für verschiedene NeRF-Bearbeitungsaufgaben (ICCV2023 Oral usw.) ist GenN2N bestehenden Methoden hinsichtlich Bearbeitungsqualität, Vielfalt, Effizienz usw. überlegen.

Methodeneinführung

Wir führen zunächst eine 2D-Bildbearbeitung durch und aktualisieren diese 2D-Bearbeitungen dann auf 3D-NeRF, um eine generative NeRF-zu-NeRF-Konvertierung zu erreichen.

A. Implicit Distill (Latent Distill)

Wir verwenden das Latent Distill Module als Encoder von VAE, um einen impliziten Bearbeitungscode für jedes bearbeitete Bild zu lernen und diesen im Bearbeitungscode für die NeRF-zu-NeRF-Konvertierung zu übergeben steuert generierte Inhalte. Alle Bearbeitungscodes gehorchen einer guten Normalverteilung unter der Einschränkung des KL-Verlusts für eine bessere Stichprobenerhebung. Um den Bearbeitungsinhalt und die Perspektive zu entkoppeln, haben wir das kontrastive Lernen sorgfältig entworfen, um zu fördern, dass die Bearbeitungscodes von Bildern mit demselben Bearbeitungsstil, aber unterschiedlichen Perspektiven ähnlich sind und die Bearbeitungscodes von Bildern mit unterschiedlichen Bearbeitungsstilen, aber derselben Perspektive, weit entfernt sind voneinander weg.

B.NeRF-zu-NeRF-Konvertierung (übersetzt NeRF)

Wir verwenden die NeRF-zu-NeRF-Übersetzung als Decoder von VAE, der den Bearbeitungscode als Eingabe verwendet und das ursprüngliche NeRF modifiziert für ein umgebautes NeRF. Wir haben Restschichten zwischen den verborgenen Schichten des ursprünglichen NeRF-Netzwerks hinzugefügt. Diese Restschichten verwenden den Bearbeitungscode als Eingabe, um die Neuronen der verborgenen Schicht zu modulieren, sodass das konvertierte NeRF nicht nur die ursprünglichen NeRF-Informationen beibehalten, sondern auch die 3D-Konvertierung steuern kann basierend auf dem Bearbeitungscode. Gleichzeitig dient die NeRF-zu-NeRF-Übersetzung auch als Generator für die Teilnahme am generativen gegnerischen Training. Durch Generieren statt Optimieren können wir mehrere Konvertierungsergebnisse gleichzeitig erhalten und so die NeRF-Konvertierungseffizienz und Ergebnisvielfalt erheblich verbessern.

C. Bedingter Diskriminator

Die in NeRF konvertierten gerenderten Bilder bilden den zu unterscheidenden Generationsraum. Die Bearbeitungsstile und Rendering-Perspektiven dieser Bilder sind unterschiedlich, was den Generationsraum sehr komplex macht . . Daher stellen wir eine Bedingung als zusätzliche Information für den Diskriminator bereit. Insbesondere wenn der Diskriminator das vom Generator gerenderte Bild CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务 (negative Probe) oder das bearbeitete Bild CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务 (positive Probe) in den Trainingsdaten identifiziert, wählen wir ein bearbeitetes Bild CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务 derselben Perspektive aus den Trainingsdaten als Bedingung aus, was das verhindert Der Diskriminator wird nicht durch perspektivische Faktoren bei der Unterscheidung positiver und negativer Proben beeinträchtigt.

D. Inferenz

Nach der GenN2N-Optimierung können Benutzer zufällig Bearbeitungscodes aus der Normalverteilung auswählen und den konvertierten NeRF eingeben, um qualitativ hochwertigen, mehrfach bearbeiteten 3D-NeRF zu generieren Szenen.

Experimente

Wir haben umfangreiche Experimente zu einer Vielzahl von NeRF-zu-NeRF-Aufgaben durchgeführt, darunter textgesteuerte NeRF-Bearbeitung, Kolorierung, Superauflösung, Inpainting usw. Experimentelle Ergebnisse belegen die überlegene Bearbeitungsqualität, Multi-View-Konsistenz, generierte Vielfalt und Bearbeitungseffizienz von GenN2N.

A. Textbasierte NeRF-Bearbeitung CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务B. CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务Vergleichsexperimente CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务Unsere Methode wird qualitativ und quantitativ verglichen mit SOTA-Methoden für verschiedene spezifische NeRF-Aufgaben ( einschließlich textgesteuerter Bearbeitung, Kolorierung, Superauflösung und Inpainting usw.). Die Ergebnisse zeigen, dass GenN2N als allgemeines Framework eine ebenso gute oder bessere Leistung erbringt als aufgabenspezifisches SOTA, während die Bearbeitungsergebnisse eine größere Vielfalt aufweisen (im Folgenden ist ein Vergleich zwischen GenN2N und Instruct-NeRF2NeRF für die textbasierte NeRF-Bearbeitungsaufgabe aufgeführt). ).

A. Textbasierte NeRF-BearbeitungCVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务
Weitere Experimente und Methoden finden Sie auf der Paper-Homepage.

Teamvorstellung

Dieser Artikel stammt vom Tan Ping-Team der Hong Kong University of Science and Technology, dem 3DVICI Lab der Tsinghua University, dem Shanghai Artificial Intelligence Laboratory und dem Shanghai Qizhi Research Institute Aufsatz ist Liu, ein Student der Hong Kong University of Science and Technology, Xue Han, ein Student der Tsinghua University, Luo Kunming, ein Student der Hong Kong University of Science and Technology, und die Dozenten sind Lehrer Yi Li aus Tsinghua Universität und Lehrer Tan Ping von der Hong Kong University of Science and Technology.

Das obige ist der detaillierte Inhalt vonCVPR 2024-Highscore-Papier: Neues generatives Bearbeitungsframework GenN2N, das NeRF-Konvertierungsaufgaben vereinheitlicht. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:jiqizhixin.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage