Tusheng Video a une nouvelle façon de jouer.
Tencent Hunyuan, l'Université des sciences et technologies de Hong Kong et l'Université Tsinghua ont lancé conjointement le cadre de génération d'animation de portraits « Follow Your Emoji », qui peut générer n'importe quel style d'animation faciale grâce aux informations sur le squelette du visage. Basé sur l'innovation algorithmique et l'accumulation de données, « Follow Your Emoji » peut prendre en charge un contrôle raffiné du visage, y compris les sourcils, les yeux, les yeux roulés et d'autres détails peuvent également être facilement « manipulés ».
Follow Your Emoji prend non seulement en charge la génération de plusieurs portraits avec une seule expression, mais prend également en charge la génération de plusieurs expressions à partir d'un seul portrait.
Ces dernières années, les modèles de diffusion ont démontré de meilleures capacités génératives que les anciens réseaux génératifs contradictoires (GAN). Certaines méthodes utilisent de puissants modèles de diffusion de base pour la génération de vidéos et d'images de haute qualité, mais ces modèles de base ne peuvent pas préserver directement les caractéristiques d'identité du portrait de référence pendant le processus d'animation, ce qui entraîne une distorsion et des artefacts irréalistes des résultats vidéo. C’est l’un des principaux défis des tâches d’animation de portraits.
Figure : L'organigramme global du document, la moitié supérieure est le processus de formation et la moitié inférieure est le processus de test
Dans cette étude, le chercheur a proposé un nouveau cadre d'animation de portrait Follow-Your-Emoji basé sur le modèle de diffusion. Il y a deux innovations majeures dans l'algorithme.
Ce signal de contrôle d'expression peut guider efficacement la génération d'animation. Les chercheurs localisent les informations grâce aux points clés 3D du portrait (visage). Puisque les points clés 3D ont des propriétés normatives inhérentes, ils peuvent efficacement aligner l'action cible avec le portrait de référence et éviter une distorsion qui entraînerait une déformation faciale dans la vidéo générée. . Cette technologie a un large éventail d’applications et peut être utilisée pour produire des vidéos de morphing facial.
Deuxièmement, l'étude propose également une fonction de perte fine pour les visages afin d'aider le modèle à se concentrer sur la capture des changements d'expression subtils et de l'apparence détaillée du portrait dans la photo de référence. Plus précisément, l'auteur utilise d'abord le masque facial et le masque d'expression ainsi que le signal de perception de l'expression de l'auteur, puis calcule la distance spatiale entre la valeur de vérité terrain et le résultat de la prédiction dans ces zones de masque pour obtenir un degré élevé de restauration du portrait original en le paquet d'émoticônes.
Pour entraîner le modèle, cette étude a également construit un ensemble de données d'entraînement d'expression de haute qualité, qui contient 18 expressions exagérées et 20 minutes de vidéos réelles provenant de 115 sujets. Dans le même temps, l’étude adopte une stratégie de génération progressive, qui permet d’étendre la méthode à la synthèse d’animation à long terme avec une fidélité et une stabilité élevées.
Figure : Les résultats expérimentaux quantitatifs et les résultats expérimentaux qualitatifs de l'article montrent que par rapport à la méthode précédente, Follow-Your-Emoji peut obtenir de meilleurs résultats
Enfin, afin de résoudre le problème du manque de tests de référence Dans le domaine de l'animation de portraits, la recherche introduit également un benchmark complet appelé EmojiBench, qui comprend 410 vidéos d'animation de portraits dans différents styles, montrant un large éventail d'expressions faciales et de poses de tête. Une évaluation complète de Follow-YourEmoji à l'aide d'EmojiBench montre que la méthode fonctionne bien dans la gestion des portraits et des actions en dehors du domaine de formation, avec des performances à la fois quantitatives et qualitatives meilleures que les méthodes de base existantes. Elle offre une excellente représentation d'identité avec une fidélité visuelle et un rendu de mouvement précis.
Site Web :Suivez votre emoji : animation de portraits libres
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!