Avec le développement de l'infographie, la technologie de génération 3D devient progressivement un haut lieu de la recherche. Cependant, la génération de modèles 3D à partir de texte ou d’images reste encore confrontée à de nombreux défis.
Récemment, des entreprises telles que Google, NVIDIA et Microsoft ont lancé des méthodes de génération 3D basées sur les champs de rayonnement neural (NeRF), mais ces méthodes sont incompatibles avec les logiciels de rendu 3D traditionnels (tels que Unity, Unreal Engine , Maya, etc.) Il existe des problèmes de compatibilité qui limitent son utilisation généralisée dans des applications pratiques.
À cette fin, l'équipe R&D de Yingmo Technology et de l'Université des sciences et technologies de Shanghai a proposé un cadre de génération 3D progressive guidé par texte conçu pour résoudre ces problèmes.
Le cadre de génération 3D progressive guidé par texte (appelé DreamFace) proposé par l'équipe de recherche combine des modèles de langage visuel et une diffusion implicite La technologie de diffusion de modèles et de matériaux basés sur la physique génère des actifs 3D conformes aux normes de production d'infographie.
L'innovation de ce framework réside dans ses trois modules : génération de géométrie, génération de diffusion de matériaux basée sur la physique et génération de capacités d'animation.
Ce travail a été accepté par la grande revue Transactions on Graphics et sera présenté à la plus grande conférence internationale d'infographie SIGGRAPH 2023.
Site du projet : https://sites.google.com/view /dreamface
Papier préimprimé : https://arxiv.org/abs/2304.03117
Démo Web : https://hyperhuman .top
HuggingFace Space : https://huggingface.co/spaces/DEEMOSTECH/ChatAvatar
DreamFace comprend principalement trois modules, la génération de géométrie, la diffusion de matériaux basée sur la physique et la génération de capacités d'animation. Par rapport aux travaux de génération 3D précédents, les principales contributions de ce travail comprennent :
Génération de géométrie : Ce module génère un modèle géométrique basé sur des invites de texte via le cadre de sélection CLIP (Contrastive Language-Image Pre-Training).
Commencez par échantillonner au hasard les candidats dans l'espace des paramètres géométriques du visage, puis sélectionnez le modèle géométrique approximatif avec le score de correspondance le plus élevé en fonction des invites textuelles.
Ensuite, les détails du visage et les cartes normales détaillées sont ajoutés au modèle de géométrie grossière à l'aide d'un modèle de diffusion implicite (LDM) et d'un traitement d'échantillonnage par distillation séquentielle (SDS) pour générer une géométrie de haute précision. Génération de diffusion de matériaux basée sur la physique
: Ce module génère des textures faciales pour la géométrie prédite et les indices textuels. Premièrement, le LDM est affiné pour obtenir deux modèles de diffusion.Les deux modèles sont ensuite coordonnés au travers d'un programme de formation commun, l'un pour le débruitage direct des cartes de texture U et l'autre pour le rendu supervisé des images. De plus, une stratégie d'apprentissage d'indices et un masquage de zones non faciales sont utilisés pour garantir la qualité des cartes diffuses générées.
Enfin, appliquez le module de super-résolution pour générer des textures 4K à base physique pour un rendu de haute qualité.Génération de capacité d'animation
: Le modèle généré par DreamFace a une capacité d'animation. Différent des méthodes traditionnelles basées sur BlendShapes, ce framework anime le modèle Neutre en prédisant des déformations uniques pour générer des animations personnalisées.
Le générateur géométrique est d'abord entraîné pour apprendre l'espace latent de l'expression, puis l'encodeur d'expression est entraîné pour extraire les caractéristiques d'expression des images RVB. Enfin, des animations personnalisées sont générées à l'aide d'images RVB monoculaires.
Le framework DreamFace a obtenu de bons résultats dans des tâches telles que la génération de célébrités et la génération de descriptions, et a obtenu des résultats dépassant les travaux précédents dans les évaluations des utilisateurs.
En même temps, elle présente des avantages évidents en termes de temps d'exécution par rapport aux méthodes existantes.
De plus, DreamFace prend en charge l'édition de textures à l'aide de conseils et de croquis pour obtenir des effets d'édition globaux (tels que le vieillissement, le maquillage) et des effets d'édition locaux (tels que les tatouages, la barbe, les taches de naissance).
En tant que cadre de génération 3D progressive guidé par texte, DreamFace combine le modèle de langage visuel, le modèle de diffusion implicite et la technologie de diffusion matérielle basée sur la physique pour réaliser une génération 3D avec une haute précision, une efficacité et une bonne compatibilité.
Ce cadre fournit une solution efficace pour résoudre des tâches complexes de génération 3D et devrait promouvoir davantage de recherches et de développements technologiques similaires.
De plus, la génération de diffusion de matériaux physiques et la génération de capacités d'animation favoriseront l'application de la technologie de génération 3D dans la production cinématographique et télévisuelle, le développement de jeux et d'autres industries connexes.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!