La rubrique AIxiv de notre site Web est une rubrique sur le contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de notre site Web a reçu plus de 2 000 contenus, couvrant les meilleurs laboratoires de grandes universités et entreprises du monde entier, contribuant ainsi à promouvoir les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. L'adresse e-mail de soumission est liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com.
Des chercheurs de l'Université des sciences et technologies de Hong Kong et de l'Université Tsinghua ont proposé "GenN2N", un cadre de conversion génératif unifié NeRF en NeRF adapté à diverses tâches de conversion NeRF, telles que l'édition NeRF pilotée par texte, l'ombrage , super-résolution, réparation, etc., les performances sont extrêmement bonnes !
- Adresse papier : https://arxiv.org/abs/2404.02788
- Page d'accueil papier : https://xiangyueliu.github.io/GenN2N/
- Git Adresse du hub : https://github.com/Lxiangyue/GenN2N
- Titre de l'article : GenN2N : Generative NeRF2NeRF Translation
Ces dernières années, les champs de rayonnement neuronal (NeRF) ont attiré beaucoup d'attention en raison de leur compacité , de haute qualité et de polyvalence. Les domaines de la reconstruction 3D, de la génération 3D et de la synthèse de nouvelles perspectives ont attiré une large attention. Cependant, une fois qu'une scène NeRF est créée, ces méthodes manquent souvent de contrôle supplémentaire sur la géométrie et l'apparence résultantes. Par conséquent, NeRF Editing est récemment devenu un axe de recherche digne d’attention. Les méthodes d'édition NeRF actuelles sont généralement spécifiques à des tâches, telles que l'édition basée sur le texte, la super-résolution, l'inpainting et la colorisation de NeRF. Ces méthodes nécessitent une grande quantité de connaissances dans un domaine spécifique à une tâche. Dans le domaine de l'édition d'images 2D, il est devenu courant de développer des méthodes universelles de conversion d'image en image. Par exemple, le modèle génératif 2D Stable Difussion est utilisé pour prendre en charge l'édition d'images multifonctionnelle. Par conséquent, nous proposons une édition NeRF universelle utilisant des modèles génératifs 2D sous-jacents. Un défi qui vient avec cela est l'écart de représentation entre les images NeRF et 2D, d'autant plus que les éditeurs d'images génèrent souvent plusieurs modifications incohérentes pour différents points de vue. Une récente méthode d’édition NeRF basée sur du texte, Instruct-NeRF2NeRF, explore cela. Il adopte le processus « rendu-édition-agrégation » pour mettre à jour progressivement la scène NeRF en rendant progressivement des images multi-vues, en éditant ces images et en agrégeant les images modifiées dans NeRF. Cependant, cette méthode d'édition, après de nombreuses optimisations pour des besoins d'édition spécifiques, ne peut générer un résultat d'édition spécifique que si l'utilisateur n'est pas satisfait, des tentatives itératives doivent être répétées. Par conséquent, nous avons proposé "GenN2N", un cadre général NeRF-to-NeRF adapté à une variété de tâches d'édition NeRF. Son cœur est d'utiliser une approche générative pour caractériser la nature multi-solutions du processus d'édition, afin qu'il puisse utiliser l'édition générative pour générer facilement un grand nombre de résultats d'édition qui répondent aux exigences de sélection des utilisateurs.
Dans la partie centrale de GenN2N, 1) le cadre génératif de 3D VAE-GAN est introduit, en utilisant VAE pour représenter l'ensemble de l'espace d'édition afin d'apprendre toutes les distributions d'édition NeRF 3D possibles correspondant à un ensemble d'images d'édition 2D d'entrée , et utilisez GAN pour fournir une supervision raisonnable pour l'édition de différentes vues de NeRF afin de garantir l'authenticité des résultats de l'édition 2) Utiliser l'apprentissage contrastif pour découpler le contenu d'édition et les perspectives afin de garantir la cohérence de l'édition du contenu entre les différentes perspectives 3) Pendant l'inférence. , l'utilisateur échantillonne simplement au hasard plusieurs codes d'édition à partir du modèle de génération conditionnelle peut générer divers résultats d'édition 3D correspondant à la cible d'édition.
Par rapport aux méthodes SOTA pour diverses tâches d'édition NeRF (ICCV2023 Oral, etc.), GenN2N est supérieure aux méthodes existantes en termes de qualité d'édition, de diversité, d'efficacité, etc. Introduction à la méthode
Nous effectuons d'abord l'édition d'images 2D, puis mettons à niveau ces modifications 2D vers NeRF 3D pour obtenir une conversion générative NeRF en NeRF. A. Distillation implicite (distillation latente) Nous utilisons le module de distillation latente comme encodeur de VAE pour apprendre un code d'édition implicite pour chaque image modifiée et le transmettons dans la conversion NeRF en NeRF. contrôle le contenu généré. Tous les codes d'édition obéissent à une bonne distribution normale sous la contrainte de perte KL pour un meilleur échantillonnage. Afin de dissocier le contenu d'édition et la perspective, nous avons soigneusement conçu un apprentissage contrastif pour encourager les codes d'édition d'images avec le même style d'édition mais des perspectives différentes à être similaires, et les codes d'édition d'images avec des styles d'édition différents mais la même perspective à être loin. Loin les uns des autres. Conversion B.NeRF-to-NeRF (Traduit NeRF) Nous utilisons la traduction NeRF-to-NeRF comme décodeur de VAE, qui prend le code d'édition en entrée et modifie le NeRF original pour un NeRF converti. Nous avons ajouté des couches résiduelles entre les couches cachées du réseau NeRF d'origine. Ces couches résiduelles utilisent le code d'édition comme entrée pour moduler les neurones de la couche cachée, de sorte que le NeRF converti puisse non seulement conserver les informations NeRF d'origine, mais également contrôler la conversion 3D. basé sur le contenu d’édition. Dans le même temps, la traduction NeRF-to-NeRF sert également de générateur pour participer à une formation contradictoire générative. En générant plutôt qu'en optimisant, nous pouvons obtenir plusieurs résultats de conversion à la fois, améliorant considérablement l'efficacité de la conversion NeRF et la diversité des résultats. C. Discriminateur conditionnel Les images rendues converties en NeRF constituent l'espace de génération qu'il faut distinguer. Les styles d'édition et les perspectives de rendu de ces images sont différents, rendant l'espace de génération très complexe. . Par conséquent, nous fournissons une condition comme information supplémentaire pour le discriminateur. Plus précisément, lorsque le discriminateur identifie l'image rendue par le générateur (échantillon négatif) ou l'image modifiée (échantillon positif) dans les données d'entraînement, nous sélectionnons une image modifiée de la même perspective à partir des données d'entraînement comme condition, ce qui empêche le Le discriminateur n'est pas gêné par des facteurs de perspective lors de la distinction des échantillons positifs et négatifs. Après l'optimisation GenN2N, les utilisateurs peuvent échantillonner de manière aléatoire les codes d'édition de la distribution normale et saisir le NeRF converti pour générer du code NeRF 3D multi-édité de haute qualité. scènes. Nous avons mené des expériences approfondies sur une variété de tâches NeRF à NeRF, notamment l'édition de texte NeRF, la colorisation, la super-résolution, l'inpainting, etc. Les résultats expérimentaux démontrent la qualité d’édition supérieure de GenN2N, la cohérence multi-vues, la diversité générée et l’efficacité de l’édition. A. Édition NeRF basée sur du textePour plus d'expériences et de méthodes, veuillez vous référer à la page d'accueil du papier. Cet article provient de l'équipe Tan Ping de l'Université des sciences et technologies de Hong Kong, du laboratoire 3DVICI de l'Université Tsinghua, du laboratoire d'intelligence artificielle de Shanghai et de l'institut de recherche Qizhi de Shanghai. L'article est Liu, étudiant à l'Université des sciences et technologies de Hong Kong, Xiang Yue, Xue Han, étudiant à l'Université de Tsinghua, Luo Kunming, étudiant à l'Université des sciences et technologies de Hong Kong, et les instructeurs sont le professeur Yi Li de Tsinghua. Université et professeur Tan Ping de l'Université des sciences et technologies de Hong Kong.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!