Table des matières
Imagen Video : à partir d'invites de texte, générez une vidéo HD
Phenaki : Vous racontez l'histoire et je la dessinerai
Maison Périphériques technologiques IA Lassé de la génération d'images, Google s'est tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Lassé de la génération d'images, Google s'est tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Apr 13, 2023 pm 06:40 PM
谷歌 模型

Après avoir converti du texte en image pendant plus de six mois, les géants de la technologie tels que Meta et Google ont jeté leur dévolu sur un nouveau champ de bataille : le texte en vidéo.

La semaine dernière, Meta a annoncé un outil capable de générer de courtes vidéos de haute qualité - Make-A-Video. Les vidéos générées à l'aide de cet outil sont très imaginatives.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Bien sûr, Google n'est pas en reste. Tout à l'heure, le PDG de l'entreprise, Sundar Pichai, a personnellement annoncé ses dernières réalisations dans ce domaine : deux outils de conversion texte-vidéo – Imagen Video et Phenaki. Le premier se concentre sur la qualité vidéo, tandis que le second remet principalement en question la longueur de la vidéo. On peut dire que chacun a ses propres mérites.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

L'ours en peluche qui fait la vaisselle ci-dessous a été généré à l'aide d'Imagen Video. Comme vous pouvez le constater, la résolution et la cohérence de l'image sont garanties dans une certaine mesure.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Imagen Video : à partir d'invites de texte, générez une vidéo HD

La modélisation générative a fait des progrès significatifs dans les récents systèmes d'IA texte-image, tels que DALL-E 2, Imagen, Parti, CogView et Latent Diffusion . En particulier, les modèles de diffusion ont obtenu un grand succès dans diverses tâches de modélisation générative telles que l'estimation de la densité, la synthèse texte-parole, image-image, texte-image et 3D.

Ce que Google veut faire, c'est générer une vidéo à partir de texte. Les travaux antérieurs sur la génération vidéo se sont concentrés sur des ensembles de données restreints avec des modèles autorégressifs, des modèles à variables latentes avec des a priori autorégressifs et, plus récemment, des méthodes à variables latentes non autorégressives. Les modèles de diffusion ont également démontré d’excellentes capacités de génération vidéo à moyenne résolution.

Sur cette base, Google a lancé Imagen Video, un système de génération vidéo conditionnelle de texte basé sur le modèle de diffusion vidéo en cascade. À partir d'une invite de texte, Imagen Video peut générer une vidéo haute définition grâce à un système composé d'un encodeur de texte T5 figé, d'un modèle de génération vidéo de base et d'un modèle de super-résolution vidéo spatio-temporelle en cascade.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Adresse papier : https://imagen.research.google/video/paper.pdf

Dans le document, Google décrit en détail comment étendre le système en un texte haute définition Modèle vers vidéo, y compris des décisions de conception telles que la sélection d'un modèle de super-résolution spatio-temporelle entièrement convolutionnel à certaines résolutions et la sélection du paramétrage en V du modèle de diffusion. Google a également migré avec succès les résultats de recherches précédentes sur la génération d'images basées sur la diffusion vers un paramètre de génération vidéo.

Google a découvert qu'Imagen Video peut convertir la vidéo 24 ips 64 images 128×128 générée par des travaux précédents en 128 images 1280×768 vidéo HD. De plus, Imagen Video possède un haut degré de contrôlabilité et de connaissance du monde, peut générer des animations vidéo et textuelles dans divers styles artistiques et possède des capacités de compréhension d'objets 3D.

Profitons d'autres vidéos générées par Imagen Video, comme un panda conduisant une voiture :

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Un bateau en bois voyageant dans l'espace :

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Pour plus de vidéos générées, veuillez voir : https://imagen.research.google/video/

Méthodes et expériences

Dans l'ensemble, le cadre de génération vidéo de Google est une cascade de sept modèles de diffusion sous-vidéo, qui effectuent respectivement la génération vidéo conditionnelle au texte, la super-résolution spatiale et la super-résolution temporelle. En utilisant toute la cascade, Imagen Video est capable de produire 128 images de vidéo HD 1280×768 (environ 126 millions de pixels) à 24 images par seconde.

Pendant ce temps, grâce à la distillation progressive, Imagen Video génère des vidéos de haute qualité en utilisant seulement huit étapes de diffusion dans chaque sous-modèle. Cela accélère le temps de génération vidéo d’environ 18 fois.

La figure 6 ci-dessous montre l'ensemble du pipeline en cascade d'Imagen Video, y compris 1 encodeur de texte figé, 1 modèle de diffusion vidéo de base, 3 modèles de super-résolution spatiale (SSR) et 3 super-résolution temporelle (TSR). Les sept modèles de diffusion vidéo comptent au total 11,6 milliards de paramètres.

Pendant le processus de génération, le modèle SSR améliore la résolution spatiale de toutes les images d'entrée, tandis que le modèle TSR améliore la résolution temporelle en remplissant les images intermédiaires entre les images d'entrée. Tous les modèles génèrent simultanément un bloc complet de trames afin que le modèle SSR ne souffre pas d'artefacts notables.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Imagen Video est construit sur l'architecture vidéo U-Net, comme le montre la figure 7 ci-dessous.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Dans le cadre d'expériences, Imagen Video est formé sur l'ensemble de données image-texte LAION-400M accessible au public, 14 millions de paires vidéo-texte et 60 millions de paires image-texte. En conséquence, comme mentionné ci-dessus, Imagen Video est non seulement capable de générer des vidéos haute définition, mais possède également des fonctionnalités uniques que les modèles génératifs non structurés qui apprennent uniquement à partir de données n'ont pas.

La figure 8 ci-dessous montre la capacité d'Imagen Video à générer des vidéos avec des styles artistiques tirés des informations sur l'image, tels que le style de peinture de Van Gogh ou des vidéos de style aquarelle.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

La figure 9 ci-dessous montre la capacité d'Imagen Video à comprendre les structures 3D. Elle peut générer des vidéos d'objets en rotation tout en conservant la structure générale de l'objet.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

La figure 10 ci-dessous montre comment Imagen Video peut générer de manière fiable du texte dans une variété de styles animés, dont certains sont difficiles à créer à l'aide d'outils traditionnels.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Veuillez vous référer à l'article original pour plus de détails expérimentaux.

Phenaki : Vous racontez l'histoire et je la dessinerai

Nous savons que même si une vidéo est essentiellement une série d'images, générer une longue vidéo cohérente n'est pas si simple car dans cette tâche, la haute qualité disponible les données sont rares et les tâches elles-mêmes sont exigeantes en termes de calcul.

Ce qui est plus gênant, c'est que les invites de texte courtes utilisées pour la génération d'images comme auparavant ne suffisent généralement pas pour fournir une description complète de la vidéo. La vidéo a besoin d'une série d'invites ou d'histoires. Idéalement, un modèle de génération vidéo doit être capable de générer des vidéos de n'importe quelle longueur et d'ajuster les images vidéo générées en fonction des changements d'invite à un certain instant t. Ce n'est qu'avec cette capacité que les œuvres générées par le modèle peuvent être appelées « vidéo » plutôt que « images animées » et ouvrir la voie à des applications créatives réelles dans les domaines de l'art, du design et de la création de contenu.

Des chercheurs de Google et d'autres institutions ont déclaré : "À notre connaissance, la génération de vidéos conditionnelles basées sur des histoires n'a jamais été explorée auparavant, et il s'agit du premier article précoce allant dans ce sens

."

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

  • Lien papier : https://pub-bede3007802c4858abc6f742f405d4ef.r2.dev/paper.pdf
  • Lien du projet : https://phenaki.github.io/#interactive

En l’absence d’ensembles de données basés sur des histoires sur lesquelles apprendre, les chercheurs n’ont aucun moyen de s’appuyer simplement sur les méthodes traditionnelles d’apprentissage en profondeur (simplement apprendre à partir des données) pour accomplir ces tâches. Ils ont donc conçu un modèle spécialement pour cette tâche.

Ce nouveau modèle texte-vidéo s'appelle Phenaki, qui utilise les données « texte-vidéo » et « texte-image » pour s'entraîner conjointement. Le modèle a les capacités suivantes :

1. Générer des vidéos diverses et cohérentes dans le temps sous la condition d'une invite de domaine ouvert, même si l'invite est une nouvelle combinaison de concepts (voir la figure 3 ci-dessous). La vidéo générée peut durer plusieurs minutes, même si la vidéo utilisée pour entraîner le modèle ne dure que 1,4 seconde (8 images/seconde)

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

2. Générez une vidéo basée sur une histoire (c'est-à-dire une série d'invites). ), comme le montrent la figure 1 et ci-dessous. Montré dans la figure 5 :

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

À partir de l'animation suivante, nous pouvons voir la cohérence et la diversité des vidéos générées par Phenaki :

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Pour mettre en œuvre ces fonctions, recherchez Vous ne pouvez pas compter sur les encodeurs vidéo existants car ces encodeurs ne peuvent décoder que des vidéos de taille fixe ou encoder des images de manière indépendante. Pour résoudre ce problème, ils ont introduit une nouvelle architecture codeur-décodeur - C-ViViT.

C-ViViT peut :

  • Utiliser la redondance temporelle dans la vidéo pour améliorer la qualité de reconstruction du modèle dans chaque image, tout en compressant le nombre de jetons vidéo de 40 % ou plus
  •  ; Permet l'encodage et le décodage de vidéos de longueur variable étant donné une structure causale donnée.

PHENAKI Model Architecture

Inspirée par des recherches antérieures sur la conversion texte-image et texte-vidéo autorégressive, la conception de Phenaki comprend principalement deux parties (voir Figure 2 ci-dessous) : L'une compresse la vidéo en discret Un modèle d'encodeur-décodeur pour l'intégration (c'est-à-dire un jeton) et un modèle de transformateur qui convertit l'intégration de texte en un jeton vidéo.

Lassé de la génération dimages, Google sest tourné vers la génération texte → vidéo, deux outils puissants qui défient à la fois la résolution et la longueur.

Obtenir une représentation compressée d'une vidéo est l'un des principaux défis de la génération de vidéos à partir de texte. Les travaux antérieurs utilisaient soit des encodeurs d'image par image, tels que VQ-GAN, soit des encodeurs vidéo de longueur fixe, tels que VideoVQVAE. Le premier permet la génération de vidéos de longueur arbitraire, mais dans la pratique, les vidéos doivent être courtes car l'encodeur ne peut pas compresser la vidéo dans le temps et les jetons sont hautement redondants dans les images consécutives. Ce dernier est plus performant en termes de nombre de tokens, mais il ne permet pas de générer des vidéos de longueur arbitraire.

À Phenaki, l'objectif du chercheur est de générer des vidéos de longueur variable tout en compressant autant que possible le nombre de jetons vidéo, afin que le modèle Transformer puisse être utilisé dans les limites actuelles des ressources informatiques. À cette fin, ils introduisent C-ViViT, une variante causale de ViViT avec des modifications architecturales supplémentaires pour la génération vidéo, qui peut compresser les vidéos dans les dimensions temporelles et spatiales tout en conservant l'autorégression temporelle. Cette fonctionnalité permet la génération de vidéos autorégressives de longueur arbitraire.

Afin d'obtenir des intégrations de texte, Phenaki utilise également un modèle de langage pré-entraîné-T5X.

Veuillez vous référer au document original pour des détails spécifiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment commenter Deepseek Comment commenter Deepseek Feb 19, 2025 pm 05:42 PM

Deepseek est un puissant outil de récupération d'informations. .

Comment rechercher Deepseek Comment rechercher Deepseek Feb 19, 2025 pm 05:39 PM

Deepseek est un moteur de recherche propriétaire qui ne recherche que dans une base de données ou un système spécifique, plus rapide et plus précis. Lorsque vous l'utilisez, il est conseillé aux utilisateurs de lire le document, d'essayer différentes stratégies de recherche, de demander de l'aide et des commentaires sur l'expérience utilisateur afin de tirer le meilleur parti de leurs avantages.

Sesame Open Door Exchange Page d'enregistrement de page Enregistrement Gate Trading App The Registration Site Web Sesame Open Door Exchange Page d'enregistrement de page Enregistrement Gate Trading App The Registration Site Web Feb 28, 2025 am 11:06 AM

Cet article présente le processus d'enregistrement de la version Web de Sesame Open Exchange (GATE.IO) et l'application Gate Trading en détail. Qu'il s'agisse de l'enregistrement Web ou de l'enregistrement de l'application, vous devez visiter le site Web officiel ou l'App Store pour télécharger l'application authentique, puis remplir le nom d'utilisateur, le mot de passe, l'e-mail, le numéro de téléphone mobile et d'autres informations et terminer la vérification des e-mails ou du téléphone mobile.

Pourquoi le lien d'échange de Bybit ne peut-il pas être téléchargé directement et installé? Pourquoi le lien d'échange de Bybit ne peut-il pas être téléchargé directement et installé? Feb 21, 2025 pm 10:57 PM

Pourquoi le lien d'échange de Bybit ne peut-il pas être téléchargé directement et installé? Bybit est un échange de crypto-monnaie qui fournit des services de trading aux utilisateurs. Les applications mobiles de l'échange ne peuvent pas être téléchargées directement via AppStore ou GooglePlay pour les raisons suivantes: 1. La politique de l'App Store empêche Apple et Google d'avoir des exigences strictes sur les types d'applications autorisées dans l'App Store. Les demandes d'échange de crypto-monnaie ne répondent souvent pas à ces exigences car elles impliquent des services financiers et nécessitent des réglementations et des normes de sécurité spécifiques. 2. Conformité des lois et réglementations Dans de nombreux pays, les activités liées aux transactions de crypto-monnaie sont réglementées ou restreintes. Pour se conformer à ces réglementations, l'application ByBit ne peut être utilisée que via des sites Web officiels ou d'autres canaux autorisés

Sesame Open Door Trading Platform Download Version mobile Gateio Trading Plateforme de téléchargement Adresse de téléchargement Sesame Open Door Trading Platform Download Version mobile Gateio Trading Plateforme de téléchargement Adresse de téléchargement Feb 28, 2025 am 10:51 AM

Il est crucial de choisir un canal formel pour télécharger l'application et d'assurer la sécurité de votre compte.

Top 10 recommandé pour l'application de trading d'actifs numériques crypto (2025 Global Ranking) Top 10 recommandé pour l'application de trading d'actifs numériques crypto (2025 Global Ranking) Mar 18, 2025 pm 12:15 PM

Cet article recommande les dix principales plates-formes de trading de crypto-monnaie qui méritent d'être prêtées, notamment Binance, Okx, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, Bydfi et Xbit décentralisées. Ces plateformes ont leurs propres avantages en termes de quantité de devises de transaction, de type de transaction, de sécurité, de conformité et de fonctionnalités spéciales. Le choix d'une plate-forme appropriée nécessite une considération complète en fonction de votre propre expérience de trading, de votre tolérance au risque et de vos préférences d'investissement. J'espère que cet article vous aide à trouver le meilleur costume pour vous-même

Sesame Open Door Exchange Page Web Login Dernière version GATEIO Entrée du site officiel Sesame Open Door Exchange Page Web Login Dernière version GATEIO Entrée du site officiel Mar 04, 2025 pm 11:48 PM

Une introduction détaillée à l'opération de connexion de la version Web Sesame Open Exchange, y compris les étapes de connexion et le processus de récupération de mot de passe.

Binance Binance Site officiel Dernière version Portail de connexion Binance Binance Site officiel Dernière version Portail de connexion Feb 21, 2025 pm 05:42 PM

Pour accéder à la dernière version du portail de connexion du site Web de Binance, suivez simplement ces étapes simples. Accédez au site officiel et cliquez sur le bouton "Connectez-vous" dans le coin supérieur droit. Sélectionnez votre méthode de connexion existante. Entrez votre numéro de mobile ou votre mot de passe enregistré et votre mot de passe et complétez l'authentification (telles que le code de vérification mobile ou Google Authenticator). Après une vérification réussie, vous pouvez accéder à la dernière version du portail de connexion du site Web officiel de Binance.

See all articles