Google lance le modèle « Vlogger » : une seule image génère une vidéo de 10 secondes-Examen du matériel-php.cn

Maison

Tutoriel matériel

Examen du matériel

Google lance le modèle « Vlogger » : une seule image génère une vidéo de 10 secondes

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 21, 2024 pm 12:21 PM

谷歌机器人翻译效果英语美图视频编辑

Google a publié un nouveau cadre vidéo :

Vous n'avez besoin que d'une photo de votre visage et d'un enregistrement de votre discours pour obtenir une vidéo réaliste de votre discours.

La durée de la vidéo est variable, et l'exemple actuel vu va jusqu'à 10s.

Vous pouvez voir que la forme de la bouche et l'expression du visage sont très naturelles.

Si l'image d'entrée couvre tout le haut du corps, elle peut également être utilisée avec une variété de gestes :

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

Après l'avoir lue, les internautes ont déclaré :

Avec elle, nous n'avons plus besoin d'organiser nos cheveux et nos vêtements pour les vidéoconférences en ligne à l'avenir.

Eh bien, prenez simplement un portrait et enregistrez l'audio de la parole (tête de chien manuelle)

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

Utilisez votre voix pour contrôler le portrait afin de générer une vidéo

Ce framework s'appelle VLOGGER.

Il est principalement basé sur le modèle de diffusion et contient deux parties :

L'une est un modèle de diffusion aléatoire d'un humain à un mouvement 3D.

L'autre est une nouvelle architecture de diffusion pour améliorer les modèles texte-image.

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

Parmi eux, le premier est chargé d'utiliser la forme d'onde audio comme entrée pour générer les actions de contrôle corporel du personnage, y compris les yeux, les expressions et les gestes, la posture globale du corps, etc.

Ce dernier est un modèle image à image de dimension temporelle qui est utilisé pour étendre le modèle de diffusion d'images à grande échelle et utiliser les actions qui viennent d'être prédites pour générer les images correspondantes.

Afin de rendre les résultats conformes à une image de personnage spécifique, VLOGGER prend également la carte de pose de l'image de paramètre en entrée.

La formation de VLOGGER est réalisée sur un très grand ensemble de données (nommé MENTOR).

Quelle est sa taille ? Il dure 2 200 heures et contient un total de 800 000 vidéos de personnages.

Parmi eux, la durée de la vidéo de l'ensemble de test est également de 120 heures, avec un total de 4 000 caractères.

Google a présenté que la performance la plus remarquable de VLOGGER est sa diversité :

Comme le montre l'image ci-dessous, plus la couleur de l'image pixel finale est foncée (rouge), plus les actions sont riches.

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

Par rapport aux méthodes similaires précédentes dans l'industrie, le plus grand avantage de VLOGGER est qu'il n'a pas besoin de former tout le monde, ne repose pas sur la détection et le recadrage des visages, et la vidéo générée est complète (y compris le visage et les lèvres). , y compris les mouvements du corps), etc.

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

Plus précisément, comme le montre le tableau suivant :

La méthode de reconstitution du visage ne peut pas contrôler une telle génération de vidéo avec de l'audio et du texte.

Audio-to-motion peut générer de l'audio en codant l'audio en mouvements du visage 3D, mais l'effet qu'il génère n'est pas assez réaliste.

La synchronisation labiale peut traiter des vidéos de différents thèmes, mais elle ne peut que simuler les mouvements de la bouche.

En comparaison, les deux dernières méthodes, SadTaker et Styletalk, fonctionnent le plus proche de Google VLOGGER, mais elles sont également vaincues par l'incapacité de contrôler le corps et de modifier davantage la vidéo.

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

En parlant de montage vidéo, comme le montre l'image ci-dessous, l'une des applications du modèle VLOGGER est la suivante : il peut faire taire le personnage, fermer les yeux, fermer uniquement l'œil gauche ou ouvrir l'œil entier. en un clic :

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

Une autre application est la traduction vidéo :

Par exemple, changer le discours anglais de la vidéo originale en espagnol avec la même forme de bouche.

Les internautes se sont plaints

Enfin, selon "l'ancienne règle", Google n'a pas publié le modèle, et maintenant tout ce que nous pouvons voir, ce sont plus d'effets et de papiers.

Eh bien, il y a beaucoup de plaintes :

La qualité d'image du modèle, la synchronisation labiale ne correspond pas, ça a toujours l'air très robotique, etc.

Certaines personnes n'ont donc pas hésité à laisser des avis négatifs :

Est-ce le niveau de Google ?

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

Désolé pour le nom "VLOGGER".

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

——Par rapport à Sora d'OpenAI, la déclaration de l'internaute n'est en effet pas déraisonnable. .

Qu'en pensez-vous ?

Plus d'effets :

https://enriccorona.github.io/vlogger/

Article complet :

https://enriccorona.github.io/vlogger/paper.pdf

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

4 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

3 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

4 Il y a quelques semaines By DDD

<🎜>: Dead Rails - Comment relever chaque défi

1 Il y a quelques mois By DDD

Guide de l'atomfall: emplacements des articles, guides de quête et conseils

1 Il y a quelques mois By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7706

Tutoriel Java

1640

Tutoriel CakePHP

1394

Tutoriel Laravel

1288

Tutoriel PHP

1231

Afficher plus

Related knowledge

Sesame Open Door Exchange Page d'enregistrement de page Enregistrement Gate Trading App The Registration Site Web Feb 28, 2025 am 11:06 AM

Cet article présente le processus d'enregistrement de la version Web de Sesame Open Exchange (GATE.IO) et l'application Gate Trading en détail. Qu'il s'agisse de l'enregistrement Web ou de l'enregistrement de l'application, vous devez visiter le site Web officiel ou l'App Store pour télécharger l'application authentique, puis remplir le nom d'utilisateur, le mot de passe, l'e-mail, le numéro de téléphone mobile et d'autres informations et terminer la vérification des e-mails ou du téléphone mobile.

Sesame Open Door Exchange Page Web Login Dernière version GATEIO Entrée du site officiel Mar 04, 2025 pm 11:48 PM

Une introduction détaillée à l'opération de connexion de la version Web Sesame Open Exchange, y compris les étapes de connexion et le processus de récupération de mot de passe.

Top 10 recommandé pour l'application de trading d'actifs numériques crypto (2025 Global Ranking) Mar 18, 2025 pm 12:15 PM

Cet article recommande les dix principales plates-formes de trading de crypto-monnaie qui méritent d'être prêtées, notamment Binance, Okx, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, Bydfi et Xbit décentralisées. Ces plateformes ont leurs propres avantages en termes de quantité de devises de transaction, de type de transaction, de sécurité, de conformité et de fonctionnalités spéciales. Le choix d'une plate-forme appropriée nécessite une considération complète en fonction de votre propre expérience de trading, de votre tolérance au risque et de vos préférences d'investissement. J'espère que cet article vous aide à trouver le meilleur costume pour vous-même

Sesame Open Door Trading Platform Download Version mobile Gateio Trading Plateforme de téléchargement Adresse de téléchargement Feb 28, 2025 am 10:51 AM

Il est crucial de choisir un canal formel pour télécharger l'application et d'assurer la sécurité de votre compte.

Bitget Trading Plateforme Adresse de téléchargement et d'installation de l'application officielle Feb 25, 2025 pm 02:42 PM

Ce guide fournit des étapes de téléchargement et d'installation détaillées pour l'application officielle Bitget Exchange, adaptée aux systèmes Android et iOS. Le guide intègre les informations de plusieurs sources faisant autorité, y compris le site officiel, l'App Store et Google Play, et met l'accent sur les considérations pendant le téléchargement et la gestion des comptes. Les utilisateurs peuvent télécharger l'application à partir des chaînes officielles, y compris l'App Store, le téléchargement officiel du site Web APK et le saut de site Web officiel, ainsi que des paramètres d'enregistrement, de vérification d'identité et de sécurité. De plus, le guide couvre les questions et considérations fréquemment posées, telles que

La dernière adresse de téléchargement de Bitget en 2025: étapes pour obtenir l'application officielle Feb 25, 2025 pm 02:54 PM

Pourquoi Bittensor est-il le 'Bitcoin' sur la piste AI? Mar 04, 2025 pm 04:06 PM

Titre original: Bittensor = Aibitcoin? Bittensor adopte un modèle de sous-réseau qui permet l'émergence de différentes solutions d'IA et inspire l'innovation à travers les jetons Tao. Bien que le marché de l'IA soit mûr, Bittensor fait face à des risques concurrentiels et peut être soumis à d'autres open source

Comment s'inscrire et télécharger la dernière application sur le site officiel de Bitget Mar 05, 2025 am 07:54 AM

See all articles