Vous souhaitez concevoir personnellement un visage tridimensionnel très réaliste, mais vous constatez que vous n'êtes pas familier avec les logiciels de conception professionnels ? La méthode d'édition de visages 3D NeRFFaceEditing apporte une nouvelle solution Même si vous ne connaissez pas la modélisation 3D, vous pouvez librement éditer des visages tridimensionnels très réalistes et modéliser des portraits numériques personnalisés dans le métaverse !
NeRFFaceEditing a été réalisé par des chercheurs de l'Institut de technologie informatique de l'Académie chinoise des sciences et de l'Université de la ville de Hong Kong. Des articles techniques connexes ont été publiés lors de la conférence d'infographie ACM SIGGRAPH Asia 2022.
Page d'accueil du projet : http://geometrylearning.com/NeRFFaceEditing/
NeRFFaceEditing utilise des masques sémantiques bidimensionnels comme pont pour l'édition de géométrie tridimensionnelle, permettant aux utilisateurs d'effectuer une édition sémantique à partir de une perspective Peut être propagée à toute la géométrie de la face 3D, en gardant le matériau inchangé. De plus, étant donné une image représentant un style de référence, l'utilisateur peut facilement modifier le style de matériau de l'ensemble du visage 3D tout en gardant la géométrie inchangée.
Le système d'édition de visage 3D basé sur cette méthode permet aux utilisateurs de réaliser facilement une conception de visage personnalisée et de personnaliser la forme et l'apparence du visage même s'ils ne sont pas familiers avec la conception 3D professionnelle. Examinons d'abord deux effets étonnants utilisant NeRFFaceEditing !
Figure 1 Effet d'édition géométrique : l'édition sur le masque sémantique bidimensionnel est propagée à l'ensemble de l'espace géométrique tridimensionnel
Figure 2 Transfert de style effet : le style donné agit sur tout l'espace tridimensionnel du visage tout en conservant la même géométrie
Ces dernières années, avec la combinaison de champs de rayonnement neuronal [1] et de réseaux génératifs adverses [ 2], divers réseaux de génération de visages 3D de haute qualité et à rendu rapide ont été proposés, notamment EG3D [3].
Figure 3 L'effet de génération et la représentation géométrique d'EG3D sous différents angles
La représentation à trois plans de cette méthode combine le réseau contradictoire génératif bidimensionnel traditionnel et les dernières représentation implicite dimensionnelle, par conséquent, il hérite de la puissante capacité de génération et de la capacité de représentation du champ de rayonnement neuronal de StyleGAN [4]. Cependant, ces modèles génératifs ne peuvent pas fournir un contrôle découplé de la géométrie et du matériau du visage humain, fonctionnalité indispensable pour des applications telles que la conception de personnages 3D.
Les travaux existants, tels que DeepFaceDrawing [5] et DeepFaceEditing [6], peuvent réaliser le contrôle du découplage de la géométrie et du matériau basé sur le dessin au trait et la génération et l'édition d'images de visage bidimensionnelles. DeepFaceVideoEditing [7] applique l'édition de dessins au trait aux vidéos de visage, ce qui peut générer de riches effets d'édition dans des séries temporelles.
Cependant, les méthodes de découplage et d'édition d'images sont difficiles à appliquer directement à l'espace tridimensionnel. Cependant, les méthodes de découplage géométrique et matérielle existantes pour les faces tridimensionnelles nécessitent souvent de recycler les paramètres de réseau, et la méthode de représentation spatiale utilisée présente de plus grandes limites et n'a pas les bonnes propriétés de la représentation à trois plans. Afin de résoudre les problèmes ci-dessus, NeRFFaceEditing est basé sur les paramètres du modèle pré-entraîné du réseau contradictoire génératif tridimensionnel représenté par les trois plans, et utilise le masque sémantique bidimensionnel sous n'importe quelle perspective comme support pour réaliser l'édition géométrique. de la face tridimensionnelle et la solution du contrôle du couplage matériau.
Une fois que le générateur à trois plans a généré le trois plans, il s'inspire d'AdaIN [8], c'est-à-dire que pour la carte de caractéristiques bidimensionnelle (Feature Map), ses données statistiques peut représenter son style, NeRFFaceEditing décompose trois plans en moyenne et écart type (a) qui expriment des caractéristiques matérielles de haut niveau spatialement invariantes, et trois plans normalisés qui expriment des caractéristiques géométriques spatialement variables. La combinaison des trois plans standardisés et des caractéristiques du matériau décomposé (a) peut restaurer le trois plans d'origine. Par conséquent, étant donné les différentes caractéristiques des matériaux, la même géométrie peut recevoir différents matériaux.
En allant plus loin, afin d'obtenir un contrôle découplé de la géométrie et des matériaux, NeRFFaceEditing décompose le décodeur unique d'origine en un décodeur de géométrie et un décodeur de matériaux. Le décodeur géométrique saisit les caractéristiques, les densités prédites et les étiquettes sémantiques obtenues à partir d'un échantillonnage normalisé à trois plans, et est utilisé pour exprimer le volume du masque géométrique et sémantique (Volume) du visage 3D. Les caractéristiques géométriques et les caractéristiques matérielles (a) sont combinées via le module module de matériau contrôlable (CAM), puis les caractéristiques échantillonnées sont entrées dans le décodeur de matériau pour prédire la couleur. Enfin, grâce au rendu volumique, l'image du visage et le masque sémantique correspondant dans une certaine perspective sont obtenus. Étant donné une caractéristique matérielle différente (b), la caractéristique géométrique et la caractéristique matérielle (b) peuvent être utilisées pour obtenir une autre image de visage avec une géométrie inchangée et un matériau modifié via le module CAM et le rendu de volume. La structure globale du réseau est présentée dans la figure ci-dessous :
Figure 4 Architecture réseau de NeRFFaceEditing
De plus, afin de contraindre les résultats de rendu d'échantillons ayant les mêmes caractéristiques matérielles mais géométrie différente dans le matériau Semblable à ci-dessus, NeRFFaceEditing utilise les masques sémantiques générés et utilise des caractéristiques d'histogramme pour représenter la distribution des couleurs de différents composants du visage, tels que les cheveux, la peau, etc., d'échantillons avec les mêmes caractéristiques matérielles et une géométrie différente. La somme des distances de la répartition des couleurs de ces échantillons sur les composants individuels est alors optimisée. Comme le montre la figure ci-dessous :
Figure 5 Stratégie de formation aux contraintes de similarité matérielle
En utilisant NeRFFaceEditing, vous pouvez utiliser des masques sémantiques bidimensionnels pour identifier des personnes en trois dimensions Édition géométrique dans l'espace du visage :
Figure 6 Édition de la géométrie du visage 3D
De plus, sur la base d'images de référence, migration de style de matériau en trois dimensions cohérentes l'espace dimensionnel peut également être réalisé :
Figure 7 Transfert de style de visage 3D
Sur cette base, une application de déformation par interpolation de visage découplée peut être mise en œuvre, comme le montre la figure ci-dessous, avec le coin supérieur gauche et le coin inférieur droit comme points de départ et d'arrivée, Interpolation linéaire de la caméra, de la géométrie et du matériau :
Figure 8 Affichage de l'effet de déformation du visage découplé
Avec l'aide de PTI [9], l'image réelle est rétroprojetée dans l'espace latent de NeRFFaceEditing. L'édition et le transfert de style d'images réelles peuvent également être réalisés. Grâce à cela, NeRFFaceEditing a également été comparé à d'autres méthodes open source d'édition de visage capables de contrôler l'angle de vue, à savoir SofGAN [10], prouvant la supériorité de la méthode.
Figure 9 Exemple d'édition de géométrie 3D d'images réelles. On peut voir que l'authenticité de NeRFFaceEditing est meilleure que celle de SofGAN, et SofGAN présente certains changements d'identité sous d'autres angles.
Figure 10 Exemple de transfert de style d'image réelle. On peut voir que SofGAN présente certains défauts et présente certains changements d'identité.
La génération de contenu numérique est largement utilisée dans les domaines de la production industrielle et des médias numériques, en particulier la génération et l'édition d'humains numériques virtuels, qui ont récemment fait l'objet d'une large attention, et les visages humains 3D. L'édition découplée de la géométrie et des matériaux est une solution possible pour la mise en forme personnalisée d'images virtuelles réelles.
Le système NeRFFaceEditing, en découplant la conception du réseau de génération de visages 3D, peut transformer la modification par l'utilisateur du masque sémantique d'une perspective bidimensionnelle en une modification géométrique de l'ensemble de l'espace tridimensionnel, tout en garantissant que le matériau ne change pas. De plus, grâce à des stratégies de formation qui améliorent l’effet de transfert de style, un transfert efficace de style de matériau dans un espace tridimensionnel peut être obtenu. L'article de NeRFFaceEditing a été accepté par ACM SIGGRAPH ASIA 2022, une conférence de premier plan en infographie.
L'équipe de recherche de ce projet comprend Jiang Kaiwen (premier auteur), un étudiant de premier cycle dans la classe élite de l'Institut de technologie informatique de l'Académie chinoise des sciences, le chercheur associé Gao Lin (auteur correspondant de cet article), le Dr . Chen Shuyu et le professeur Fu Hongbo de la City University de Hong Kong, etc. Plus de mises à jour sur l'article Pour plus de détails, veuillez visiter la page d'accueil du projet :
http://geometrylearning.com/NeRFFaceEditing/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!