


Google lance le modèle « Vlogger » : une seule image génère une vidéo de 10 secondes
Google a publié un nouveau cadre vidéo :
Vous n'avez besoin que d'une photo de votre visage et d'un enregistrement de votre discours pour obtenir une vidéo réaliste de votre discours.
La durée de la vidéo est variable, et l'exemple actuel vu va jusqu'à 10s.
Vous pouvez voir que la forme de la bouche et l'expression du visage sont très naturelles.
Si l'image d'entrée couvre tout le haut du corps, elle peut également être utilisée avec une variété de gestes :
Après l'avoir lue, les internautes ont déclaré :
Avec elle, nous n'avons plus besoin d'organiser nos cheveux et nos vêtements pour les vidéoconférences en ligne à l'avenir.
Eh bien, prenez simplement un portrait et enregistrez l'audio de la parole (tête de chien manuelle)
Utilisez votre voix pour contrôler le portrait afin de générer une vidéo
Ce framework s'appelle VLOGGER.
Il est principalement basé sur le modèle de diffusion et contient deux parties :
L'une est un modèle de diffusion aléatoire d'un humain à un mouvement 3D.
L'autre est une nouvelle architecture de diffusion pour améliorer les modèles texte-image.
Parmi eux, le premier est chargé d'utiliser la forme d'onde audio comme entrée pour générer les actions de contrôle corporel du personnage, y compris les yeux, les expressions et les gestes, la posture globale du corps, etc.
Ce dernier est un modèle image à image de dimension temporelle qui est utilisé pour étendre le modèle de diffusion d'images à grande échelle et utiliser les actions qui viennent d'être prédites pour générer les images correspondantes.
Afin de rendre les résultats conformes à une image de personnage spécifique, VLOGGER prend également la carte de pose de l'image de paramètre en entrée.
La formation de VLOGGER est réalisée sur un très grand ensemble de données (nommé MENTOR).
Quelle est sa taille ? Il dure 2 200 heures et contient un total de 800 000 vidéos de personnages.
Parmi eux, la durée de la vidéo de l'ensemble de test est également de 120 heures, avec un total de 4 000 caractères.
Google a présenté que la performance la plus remarquable de VLOGGER est sa diversité :
Comme le montre l'image ci-dessous, plus la couleur de l'image pixel finale est foncée (rouge), plus les actions sont riches.
Par rapport aux méthodes similaires précédentes dans l'industrie, le plus grand avantage de VLOGGER est qu'il n'a pas besoin de former tout le monde, ne repose pas sur la détection et le recadrage des visages, et la vidéo générée est complète (y compris le visage et les lèvres). , y compris les mouvements du corps), etc.
Plus précisément, comme le montre le tableau suivant :
La méthode de reconstitution du visage ne peut pas contrôler une telle génération de vidéo avec de l'audio et du texte.
Audio-to-motion peut générer de l'audio en codant l'audio en mouvements du visage 3D, mais l'effet qu'il génère n'est pas assez réaliste.
La synchronisation labiale peut traiter des vidéos de différents thèmes, mais elle ne peut que simuler les mouvements de la bouche.
En comparaison, les deux dernières méthodes, SadTaker et Styletalk, fonctionnent le plus proche de Google VLOGGER, mais elles sont également vaincues par l'incapacité de contrôler le corps et de modifier davantage la vidéo.
En parlant de montage vidéo, comme le montre l'image ci-dessous, l'une des applications du modèle VLOGGER est la suivante : il peut faire taire le personnage, fermer les yeux, fermer uniquement l'œil gauche ou ouvrir l'œil entier. en un clic :
Une autre application est la traduction vidéo :
Par exemple, changer le discours anglais de la vidéo originale en espagnol avec la même forme de bouche.
Les internautes se sont plaints
Enfin, selon "l'ancienne règle", Google n'a pas publié le modèle, et maintenant tout ce que nous pouvons voir, ce sont plus d'effets et de papiers.
Eh bien, il y a beaucoup de plaintes :
La qualité d'image du modèle, la synchronisation labiale ne correspond pas, ça a toujours l'air très robotique, etc.
Certaines personnes n'ont donc pas hésité à laisser des avis négatifs :
Est-ce le niveau de Google ?
Désolé pour le nom "VLOGGER".
——Par rapport à Sora d'OpenAI, la déclaration de l'internaute n'est en effet pas déraisonnable. .
Qu'en pensez-vous ?
Plus d'effets :
https://enriccorona.github.io/vlogger/
Article complet :
https://enriccorona.github.io/vlogger/paper.pdf
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Cet article présente le processus d'enregistrement de la version Web de Sesame Open Exchange (GATE.IO) et l'application Gate Trading en détail. Qu'il s'agisse de l'enregistrement Web ou de l'enregistrement de l'application, vous devez visiter le site Web officiel ou l'App Store pour télécharger l'application authentique, puis remplir le nom d'utilisateur, le mot de passe, l'e-mail, le numéro de téléphone mobile et d'autres informations et terminer la vérification des e-mails ou du téléphone mobile.

Une introduction détaillée à l'opération de connexion de la version Web Sesame Open Exchange, y compris les étapes de connexion et le processus de récupération de mot de passe.

Cet article recommande les dix principales plates-formes de trading de crypto-monnaie qui méritent d'être prêtées, notamment Binance, Okx, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, Bydfi et Xbit décentralisées. Ces plateformes ont leurs propres avantages en termes de quantité de devises de transaction, de type de transaction, de sécurité, de conformité et de fonctionnalités spéciales. Le choix d'une plate-forme appropriée nécessite une considération complète en fonction de votre propre expérience de trading, de votre tolérance au risque et de vos préférences d'investissement. J'espère que cet article vous aide à trouver le meilleur costume pour vous-même

Il est crucial de choisir un canal formel pour télécharger l'application et d'assurer la sécurité de votre compte.

Ce guide fournit des étapes de téléchargement et d'installation détaillées pour l'application officielle Bitget Exchange, adaptée aux systèmes Android et iOS. Le guide intègre les informations de plusieurs sources faisant autorité, y compris le site officiel, l'App Store et Google Play, et met l'accent sur les considérations pendant le téléchargement et la gestion des comptes. Les utilisateurs peuvent télécharger l'application à partir des chaînes officielles, y compris l'App Store, le téléchargement officiel du site Web APK et le saut de site Web officiel, ainsi que des paramètres d'enregistrement, de vérification d'identité et de sécurité. De plus, le guide couvre les questions et considérations fréquemment posées, telles que

Ce guide fournit des étapes de téléchargement et d'installation détaillées pour l'application officielle Bitget Exchange, adaptée aux systèmes Android et iOS. Le guide intègre les informations de plusieurs sources faisant autorité, y compris le site officiel, l'App Store et Google Play, et met l'accent sur les considérations pendant le téléchargement et la gestion des comptes. Les utilisateurs peuvent télécharger l'application à partir des chaînes officielles, y compris l'App Store, le téléchargement officiel du site Web APK et le saut de site Web officiel, ainsi que des paramètres d'enregistrement, de vérification d'identité et de sécurité. De plus, le guide couvre les questions et considérations fréquemment posées, telles que

Titre original: Bittensor = Aibitcoin? Bittensor adopte un modèle de sous-réseau qui permet l'émergence de différentes solutions d'IA et inspire l'innovation à travers les jetons Tao. Bien que le marché de l'IA soit mûr, Bittensor fait face à des risques concurrentiels et peut être soumis à d'autres open source

Ce guide fournit des étapes de téléchargement et d'installation détaillées pour l'application officielle Bitget Exchange, adaptée aux systèmes Android et iOS. Le guide intègre les informations de plusieurs sources faisant autorité, y compris le site officiel, l'App Store et Google Play, et met l'accent sur les considérations pendant le téléchargement et la gestion des comptes. Les utilisateurs peuvent télécharger l'application à partir des chaînes officielles, y compris l'App Store, le téléchargement officiel du site Web APK et le saut de site Web officiel, ainsi que des paramètres d'enregistrement, de vérification d'identité et de sécurité. De plus, le guide couvre les questions et considérations fréquemment posées, telles que
