Les propriétaires d'Up ont déjà commencé à s'amuser avec « AniPortrait » open source de Tencent pour laisser les photos chanter et parler.-IA-php.cn

Maison

Les propriétaires d'Up ont déjà commencé à s'amuser avec « AniPortrait » open source de Tencent pour laisser les photos chanter et parler.

王林

Apr 07, 2024 am 09:01 AM

腾讯产业

Les modèles AniPortrait sont open source et peuvent être joués librement.

"Un nouvel outil de productivité pour Xiaopozhan Ghost Zone."

Récemment, un nouveau projet publié par Tencent Open Source a reçu une telle évaluation sur le pouce. Ce projet est AniPortrait, qui génère des portraits animés de haute qualité basés sur l'audio et une image de référence.

Sans plus attendre, jetons un œil à la démo qui peut être prévenue par une lettre d'avocat :

Les propriétaires dUp ont déjà commencé à samuser avec « AniPortrait » open source de Tencent pour laisser les photos chanter et parler.

Les images d'anime peuvent aussi parler facilement :

Le projet vient d'être en ligne depuis un quelques jours, et il a déjà reçu de nombreux éloges : le nombre de GitHub Stars a dépassé les 2 800.

Les propriétaires dUp ont déjà commencé à samuser avec « AniPortrait » open source de Tencent pour laisser les photos chanter et parler.

Jetons un coup d'œil aux innovations d'AniPortrait.

Les propriétaires dUp ont déjà commencé à samuser avec « AniPortrait » open source de Tencent pour laisser les photos chanter et parler.

Titre de l'article : AniPortrait : Synthèse audio-pilotée de l'animation de portraits photoréalistes
Adresse de l'article : https://arxiv.org/pdf/2403.17694.pdf
Adresse du code : https:/ /arxiv.org/pdf/2403.17694.pdf /github.com/Zejun-Yang/AniPortrait

AniPortrait

Le nouveau framework AniPortrait de Tencent contient deux modules : Audio2Lmk et Lmk. 2Vidéo.

Audio2Lmk est utilisé pour extraire des séquences Landmark, qui peuvent capturer des expressions faciales complexes et des mouvements de lèvres à partir d'une entrée audio. Lmk2Video utilise cette séquence Landmark pour générer des vidéos de portrait de haute qualité, stables dans le temps et cohérentes.

La figure 1 donne un aperçu du framework AniPortrait.

Les propriétaires dUp ont déjà commencé à samuser avec « AniPortrait » open source de Tencent pour laisser les photos chanter et parler.

Audio2Lmk

Pour une séquence de clips vocaux, le but ici est de prédire la séquence de maillage de visage 3D et la séquence de gestes correspondantes.

L'équipe a utilisé wav2vec pré-entraîné pour extraire les fonctionnalités audio. Le modèle se généralise bien et peut reconnaître avec précision la prononciation et l'intonation de l'audio, ce qui est crucial pour générer des animations faciales réalistes. En exploitant les caractéristiques vocales robustes obtenues, ils peuvent être efficacement convertis en maillages de visage 3D en utilisant une architecture simple composée de deux couches FC. L’équipe a observé que cette conception simple et directe garantit non seulement l’exactitude, mais améliore également l’efficacité du processus d’inférence.

Dans la tâche de conversion de l'audio en gestes, le réseau fédérateur utilisé par l'équipe est toujours le même wav2vec. Cependant, les poids de ce réseau sont différents de ceux du réseau du module audio-to-mesh. En effet, les gestes sont plus étroitement liés au rythme et à la hauteur de l'audio, tandis que les tâches audio-grille se concentrent sur un objectif différent (prononciation et intonation). Pour prendre en compte l’impact des états précédents, l’équipe a utilisé un décodeur de transformateur pour décoder la séquence de poses. Dans ce processus, le module utilise un mécanisme d'attention croisée pour intégrer des fonctionnalités audio dans le décodeur. Pour les deux modules ci-dessus, la fonction de perte utilisée pour la formation est une simple perte L1.

Après avoir obtenu le maillage et la séquence de pose, utilisez la projection en perspective pour les convertir en une séquence de points de repère de visage 2D. Ces repères sont les signaux d’entrée pour l’étape suivante.

Lmk2Video

Étant donné un portrait de référence et une séquence de visage Landmark, le Lmk2Video proposé par l'équipe peut créer des animations de portrait temporellement cohérentes. Ce processus d'animation aligne le mouvement sur la séquence Landmark tout en conservant une apparence cohérente avec l'image de référence. L'idée adoptée par l'équipe est de représenter l'animation de portraits comme une séquence de cadres de portraits.

Cette conception de structure de réseau de Lmk2Video est inspirée d'AnimateAnyone. Le réseau fédérateur est SD1.5, qui intègre un module de mouvement temporel qui convertit efficacement l'entrée de bruit multi-images en une séquence d'images vidéo.

De plus, ils ont également utilisé un ReferenceNet, qui utilise également la structure SD1.5. Sa fonction est d'extraire les informations d'apparence de l'image de référence et de l'intégrer dans le réseau fédérateur. Cette conception stratégique garantit que Face ID reste cohérent tout au long de la vidéo de sortie.

Contrairement à AnimateAnyone, la complexité de la conception de PoseGuider est améliorée ici. La version originale a simplement intégré plusieurs couches convolutives, puis les fonctionnalités Landmark ont été fusionnées avec les fonctionnalités latentes de la couche d'entrée du réseau fédérateur. L’équipe de Tencent a constaté que cette conception rudimentaire ne pouvait pas capturer les mouvements complexes des lèvres. Par conséquent, ils ont adopté la stratégie multi-échelles de ControlNet : intégrer les fonctionnalités Landmark des échelles correspondantes dans différents modules du réseau fédérateur. Malgré ces améliorations, le nombre de paramètres dans le modèle final reste encore assez faible.

L'équipe a également introduit une autre amélioration : utiliser le Landmark de l'image de référence comme entrée supplémentaire. Le module d'attention croisée de PoseGuider facilite l'interaction entre les repères de référence et les repères cibles dans chaque image. Ce processus fournit au réseau des indices supplémentaires qui lui permettent de comprendre le lien entre les repères du visage et l'apparence, ce qui peut aider l'animation du portrait à générer des mouvements plus précis.

Expérience

Détails de mise en œuvre

Le réseau fédérateur utilisé dans l'étape Audio2Lmk est wav2vec2.0. L'outil utilisé pour extraire les maillages 3D et les poses 6D est MediaPipe. Les données de formation d'Audio2Mesh proviennent de l'ensemble de données interne de Tencent, qui contient près d'une heure de données vocales de haute qualité provenant d'un seul locuteur.

Pour assurer la stabilité du maillage 3D extrait par MediaPipe, la position de la tête de l'interprète est stable et face à la caméra pendant l'enregistrement. La formation Audio2Pose utilise HDTF. Toutes les opérations de formation sont effectuées sur un seul A100, à l'aide de l'optimiseur Adam, et le taux d'apprentissage est fixé à 1e-5.

Le processus Lmk2Video utilise une méthode de formation en deux étapes.

La phase initiale se concentre sur la formation du réseau fédérateur ReferenceNet et du composant 2D de PoseGuider, quel que soit le module de mouvement. Dans les étapes suivantes, tous les autres composants seront gelés pour se concentrer sur la formation du module de mouvement. Pour entraîner le modèle, deux ensembles de données vidéo faciales à grande échelle et de haute qualité sont utilisés ici : VFHQ et CelebV-HQ. Toutes les données sont transmises via MediaPipe pour extraire les repères de visage 2D. Pour améliorer la sensibilité du réseau aux mouvements des lèvres, l'approche de l'équipe a consisté à annoter les lèvres supérieures et inférieures avec des couleurs différentes lors du rendu d'images de pose basées sur des repères 2D.

Toutes les images ont été redimensionnées à 512x512.Le modèle a été entraîné à l'aide de 4 GPU A100, chaque étape prenant 2 jours. L'optimiseur est AdamW et le taux d'apprentissage est fixé à 1e-5.

Résultats expérimentaux

Comme le montre la figure 2, l'animation obtenue par la nouvelle méthode est excellente en qualité et en réalisme.

Les propriétaires dUp ont déjà commencé à samuser avec « AniPortrait » open source de Tencent pour laisser les photos chanter et parler.

De plus, les utilisateurs peuvent modifier la représentation 3D au milieu pour modifier la sortie finale. Par exemple, les utilisateurs peuvent extraire des monuments d'une source et modifier leurs informations d'identification pour obtenir une reproduction faciale, comme le montre la vidéo suivante :

Veuillez vous référer à l'article original pour plus de détails.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

1 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Où trouver la courte de la grue à atomide atomique

1 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7415

Tutoriel CakePHP

1359

Quel est le format du nom de compte de Steam

Clé d&#39;activation Win11 permanent

Afficher plus

Related knowledge

Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Aug 09, 2024 pm 04:01 PM

Mais peut-être qu’il ne pourra pas vaincre le vieil homme dans le parc ? Les Jeux Olympiques de Paris battent leur plein et le tennis de table suscite beaucoup d'intérêt. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table. DeepMind vient tout juste de proposer le premier agent robot apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition. Adresse papier : https://arxiv.org/pdf/2408.03906 Quelle est la capacité du robot DeepMind à jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains : tant en coup droit qu'en revers : l'adversaire utilise une variété de styles de jeu, et le robot peut également résister : recevoir des services avec des tours différents : Cependant, l'intensité du jeu ne semble pas aussi intense que le vieil homme dans le parc. Pour les robots, le tennis de table

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison Aug 21, 2024 pm 07:33 PM

Le 21 août, la Conférence mondiale sur les robots 2024 s'est tenue en grande pompe à Pékin. La marque de robots domestiques de SenseTime, "Yuanluobot SenseRobot", a dévoilé toute sa famille de produits et a récemment lancé le robot de jeu d'échecs Yuanluobot AI - Chess Professional Edition (ci-après dénommé "Yuanluobot SenseRobot"), devenant ainsi le premier robot d'échecs au monde pour le maison. En tant que troisième produit robot jouant aux échecs de Yuanluobo, le nouveau robot Guoxiang a subi un grand nombre de mises à niveau techniques spéciales et d'innovations en matière d'IA et de machines d'ingénierie. Pour la première fois, il a réalisé la capacité de ramasser des pièces d'échecs en trois dimensions. grâce à des griffes mécaniques sur un robot domestique et effectuer des fonctions homme-machine telles que jouer aux échecs, tout le monde joue aux échecs, réviser la notation, etc.

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Sep 02, 2024 pm 01:56 PM

La rentrée scolaire est sur le point de commencer, et ce ne sont pas seulement les étudiants qui sont sur le point de commencer le nouveau semestre qui doivent prendre soin d’eux-mêmes, mais aussi les grands modèles d’IA. Il y a quelque temps, Reddit était rempli d'internautes se plaignant de la paresse de Claude. « Son niveau a beaucoup baissé, il fait souvent des pauses et même la sortie devient très courte. Au cours de la première semaine de sortie, il pouvait traduire un document complet de 4 pages à la fois, mais maintenant il ne peut même plus produire une demi-page. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dans un post intitulé "Totalement déçu par Claude", plein de

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Aug 22, 2024 pm 10:35 PM

Lors de la World Robot Conference qui se tient à Pékin, l'exposition de robots humanoïdes est devenue le centre absolu de la scène. Sur le stand Stardust Intelligent, l'assistant robot IA S1 a réalisé trois performances majeures de dulcimer, d'arts martiaux et de calligraphie. un espace d'exposition, capable à la fois d'arts littéraires et martiaux, a attiré un grand nombre de publics professionnels et de médias. Le jeu élégant sur les cordes élastiques permet au S1 de démontrer un fonctionnement fin et un contrôle absolu avec vitesse, force et précision. CCTV News a réalisé un reportage spécial sur l'apprentissage par imitation et le contrôle intelligent derrière "Calligraphy". Le fondateur de la société, Lai Jie, a expliqué que derrière les mouvements soyeux, le côté matériel recherche le meilleur contrôle de la force et les indicateurs corporels les plus humains (vitesse, charge). etc.), mais du côté de l'IA, les données réelles de mouvement des personnes sont collectées, permettant au robot de devenir plus fort lorsqu'il rencontre une situation forte et d'apprendre à évoluer rapidement. Et agile

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Les contributeurs ont beaucoup gagné de cette conférence ACL. L'ACL2024, d'une durée de six jours, se tient à Bangkok, en Thaïlande. ACL est la plus grande conférence internationale dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. L'ACL s'est toujours classée première en termes d'influence académique dans le domaine de la PNL, et c'est également une conférence recommandée par le CCF-A. La conférence ACL de cette année est la 62e et a reçu plus de 400 travaux de pointe dans le domaine de la PNL. Hier après-midi, la conférence a annoncé le meilleur article et d'autres récompenses. Cette fois, il y a 7 Best Paper Awards (deux inédits), 1 Best Theme Paper Award et 35 Outstanding Paper Awards. La conférence a également décerné 3 Resource Paper Awards (ResourceAward) et Social Impact Award (

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o Sep 03, 2024 pm 05:18 PM

Intégration profonde de la vision et de l'apprentissage des robots. Lorsque deux mains de robot travaillent ensemble en douceur pour plier des vêtements, verser du thé et emballer des chaussures, associées au robot humanoïde 1X NEO qui a fait la une des journaux récemment, vous pouvez avoir le sentiment : nous semblons entrer dans l'ère des robots. En fait, ces mouvements soyeux sont le produit d’une technologie robotique avancée + d’une conception de cadre exquise + de grands modèles multimodaux. Nous savons que les robots utiles nécessitent souvent des interactions complexes et exquises avec l’environnement, et que l’environnement peut être représenté comme des contraintes dans les domaines spatial et temporel. Par exemple, si vous souhaitez qu'un robot verse du thé, le robot doit d'abord saisir la poignée de la théière et la maintenir verticalement sans renverser le thé, puis la déplacer doucement jusqu'à ce que l'embouchure de la théière soit alignée avec l'embouchure de la tasse. , puis inclinez la théière selon un certain angle. ce

Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Aug 08, 2024 am 07:02 AM

Cet après-midi, Hongmeng Zhixing a officiellement accueilli de nouvelles marques et de nouvelles voitures. Le 6 août, Huawei a organisé la conférence de lancement de nouveaux produits Hongmeng Smart Xingxing S9 et Huawei, réunissant la berline phare intelligente panoramique Xiangjie S9, le nouveau M7Pro et Huawei novaFlip, MatePad Pro 12,2 pouces, le nouveau MatePad Air, Huawei Bisheng With de nombreux nouveaux produits intelligents tous scénarios, notamment la série d'imprimantes laser X1, FreeBuds6i, WATCHFIT3 et l'écran intelligent S5Pro, des voyages intelligents, du bureau intelligent aux vêtements intelligents, Huawei continue de construire un écosystème intelligent complet pour offrir aux consommateurs une expérience intelligente du Internet de tout. Hongmeng Zhixing : Autonomisation approfondie pour promouvoir la modernisation de l'industrie automobile intelligente Huawei s'associe à ses partenaires de l'industrie automobile chinoise pour fournir

L'IA utilisée | Le jeu fou Amway AI du président de Microsoft m'a torturé des milliers de fois Aug 14, 2024 am 12:00 AM

Rédacteur du Machine Power Report : Yang Wen La vague d’intelligence artificielle représentée par les grands modèles et l’AIGC a discrètement changé notre façon de vivre et de travailler, mais la plupart des gens ne savent toujours pas comment l’utiliser. C'est pourquoi nous avons lancé la rubrique « AI in Use » pour présenter en détail comment utiliser l'IA à travers des cas d'utilisation de l'intelligence artificielle intuitifs, intéressants et concis et stimuler la réflexion de chacun. Nous invitons également les lecteurs à soumettre des cas d'utilisation innovants et pratiques. Oh mon Dieu, l'IA est vraiment devenue un génie. Récemment, la difficulté de distinguer l’authenticité des images générées par l’IA est devenue un sujet brûlant. (Pour plus de détails, veuillez consulter : IA utilisée | Devenez une beauté de l'IA en trois étapes et retrouvez votre forme originale par l'IA en une seconde) En plus de la populaire dame IA de Google sur Internet, divers générateurs de FLUX ont apparu sur les plateformes sociales

See all articles