La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.-IA-php.cn

Maison

La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.

Dec 27, 2023 pm 06:35 PM

工程 fairy

Le nouveau cadre de synthèse vidéo de Meta nous a apporté quelques surprises

En termes de niveau de développement de l'intelligence artificielle d'aujourd'hui, les images basées sur du texte, les vidéos basées sur des images et le transfert de style image/vidéo ne sont rien de difficile.

L'IA générative est dotée de la capacité de créer ou de modifier du contenu sans effort. L’édition d’images, en particulier, a connu une croissance significative, portée par des modèles de diffusion texte-image pré-entraînés sur des ensembles de données à l’échelle d’un milliard. Cette vague a donné naissance à une pléthore d’applications d’édition d’images et de création de contenu.

Sur la base des réalisations des modèles génératifs basés sur l'image, le prochain défi doit être d'y ajouter une « dimension temporelle », afin de réaliser un montage vidéo facile et créatif.

Une stratégie simple consiste à utiliser un modèle d'image pour traiter la vidéo image par image. Cependant, l'édition d'image générative est intrinsèquement très variable : il existe d'innombrables façons d'éditer une image donnée, même à partir de la même invite de texte. Si chaque image est éditée indépendamment, il sera difficile de maintenir une cohérence temporelle.

Dans un article récent, des chercheurs de l'équipe Meta GenAI ont proposé Fairy - une "simple adaptation" du modèle de diffusion de l'édition d'images, qui améliore considérablement les performances de l'IA dans le montage vidéo.

Ce qui suit est l'affichage des effets vidéo d'édition de Fairy :

La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.

Fairy génère 120 images de vidéo 512 × 384 (4 secondes, 30 FPS) en seulement 14 secondes, ce qui est au moins 44 fois plus rapide que les méthodes précédentes. Une étude utilisateur complète portant sur 1 000 échantillons générés a confirmé que la méthode proposée génère une qualité élevée et surpasse considérablement les méthodes existantes.

Comment faire ?

Selon l'article, Fairy est basé sur le concept d'attention inter-images basée sur des points d'ancrage. Ce mécanisme peut implicitement propager des caractéristiques de diffusion à travers les images, garantissant des effets de synthèse cohérents dans le temps et haute fidélité. Fairy résout non seulement les limitations des modèles précédents en termes de mémoire et de vitesse de traitement, mais améliore également la cohérence temporelle grâce à une stratégie unique d'augmentation des données qui rend le modèle équivalent à une transformation affine des images source et cible.

La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.

Adresse de papier: https://arxiv.org/pdf/2312.13834.pdf
project Homepage: https://fairy-video2video.github.io/

Methods

Fairy revisite le précédent paradigme de suivi et de propagation dans le contexte des caractéristiques du modèle de diffusion. En particulier, cette étude utilise l'estimation de correspondance pour combler l'attention inter-images, permettant au modèle de suivre et de propager les caractéristiques intermédiaires au sein du modèle de diffusion.

La carte d'attention entre les images peut être interprétée comme une mesure de similarité pour évaluer la correspondance entre les jetons dans chaque image, où les caractéristiques d'une zone sémantique accorderont une plus grande attention aux autres images. Zones sémantiques similaires, comme le montre la figure 3 ci-dessous. .

Par conséquent, la représentation actuelle des caractéristiques est affinée et propagée en se concentrant sur la somme pondérée des régions similaires entre les images, minimisant ainsi efficacement les différences de caractéristiques entre les images.

La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.

Une série d'opérations produit un modèle basé sur une ancre, qui est le composant central de Fairy.

Pour garantir la cohérence temporelle des vidéos générées, cette étude a échantillonné K images d'ancrage pour extraire les caractéristiques de diffusion, et les caractéristiques extraites ont été définies comme un ensemble de caractéristiques globales à propager aux images consécutives. Cette étude remplace la couche d'auto-attention par une attention inter-images pour les fonctionnalités mises en cache de l'image d'ancrage lorsque chaque nouvelle image est générée. Grâce à l'attention inter-trames, les jetons de chaque trame adoptent des caractéristiques qui présentent un contenu sémantique similaire dans la trame d'ancrage, améliorant ainsi la cohérence.

La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.

Évaluation expérimentale

Dans la partie expérimentale, les chercheurs ont principalement implémenté Fairy sur la base du modèle pédagogique d'édition d'images et ont utilisé l'attention multi-images pour remplacer l'auto-attention du modèle. Ils ont fixé le nombre de cadres d'ancrage à 3. Le modèle peut accepter des entrées de différents rapports d'aspect et redimensionner la résolution d'entrée de taille plus longue à 512, en gardant le rapport d'aspect inchangé. Les chercheurs éditent toutes les images de la vidéo d’entrée sans sous-échantillonnage. Tous les calculs sont répartis sur 8 GPU A100.

Évaluation qualitative

Le chercheur a d'abord montré les résultats qualitatifs de Fairy, comme le montre la figure 5 ci-dessous, Fairy peut éditer différents sujets.

La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.

Dans la figure 6 ci-dessous, le chercheur montre que Fairy peut effectuer différents types d'édition en fonction des instructions du texte, notamment la stylisation, les changements de rôle, l'édition locale, l'édition d'attributs, etc.

La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.

La figure 9 ci-dessous montre que Fairy peut convertir le personnage source en différents personnages cibles selon les instructions.

La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.

Évaluation quantitative

Les chercheurs montrent les résultats globaux de la comparaison de la qualité dans la figure 7 ci-dessous, dans laquelle les vidéos générées par Fairy sont les plus populaires.

La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.

La figure 10 ci-dessous montre les résultats de la comparaison visuelle avec le modèle de base.

La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.

Pour plus de détails techniques et de résultats expérimentaux, veuillez vous référer à l'article original.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article chaud

Repo: Comment relancer ses coéquipiers

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Combien de temps faut-il pour battre Split Fiction?

3 Il y a quelques semaines By DDD

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Comment obtenir des graines géantes

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Difficulté à mettre à jour la mise en cache des pages Web officielles du compte: comment éviter l'ancien cache affectant l'expérience utilisateur après la mise à jour de la version?

3 Il y a quelques semaines By 王林

Afficher plus

Outils chauds Tags

Code&IT

Voix

Entreprise

Commercialisation

Détecteur d'IA

Chatbot

Conception et art

Article chaud

Repo: Comment relancer ses coéquipiers

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Combien de temps faut-il pour battre Split Fiction?

3 Il y a quelques semaines By DDD

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Comment obtenir des graines géantes

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Difficulté à mettre à jour la mise en cache des pages Web officielles du compte: comment éviter l'ancien cache affectant l'expérience utilisateur après la mise à jour de la version?

3 Il y a quelques semaines By 王林

Afficher plus

Tags d'article chaud

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7286

Tutoriel Java

1622

Tutoriel CakePHP

1342

Tutoriel Laravel

1259

Tutoriel PHP

1206

Afficher plus

Related knowledge

Du RLHF au DPO en passant par TDPO, les algorithmes d'alignement des grands modèles sont déjà « au niveau des jetons » Jun 24, 2024 pm 03:04 PM

Du RLHF au DPO en passant par TDPO, les algorithmes d'alignement des grands modèles sont déjà « au niveau des jetons »

Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible Jul 19, 2024 am 01:29 AM

Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible

En tête de liste des ingénieurs logiciels d'IA open source, la solution sans agent de l'UIUC résout facilement les problèmes de programmation réels du banc SWE. Jul 17, 2024 pm 10:02 PM

En tête de liste des ingénieurs logiciels d'IA open source, la solution sans agent de l'UIUC résout facilement les problèmes de programmation réels du banc SWE.

L'auteur de ControlNet a encore un succès ! L'ensemble du processus de génération d'une peinture à partir d'une image, gagnant 1,4k étoiles en deux jours Jul 17, 2024 am 01:56 AM

L'auteur de ControlNet a encore un succès ! L'ensemble du processus de génération d'une peinture à partir d'une image, gagnant 1,4k étoiles en deux jours

Génération vidéo illimitée, planification et prise de décision, diffusion, intégration forcée de la prédiction du prochain jeton et diffusion de la séquence complète Jul 23, 2024 pm 02:05 PM

Génération vidéo illimitée, planification et prise de décision, diffusion, intégration forcée de la prédiction du prochain jeton et diffusion de la séquence complète

Les articles arXiv peuvent être publiés sous forme de 'barrage', la plateforme de discussion alphaXiv de Stanford est en ligne, LeCun l'aime Aug 01, 2024 pm 05:18 PM

Les articles arXiv peuvent être publiés sous forme de 'barrage', la plateforme de discussion alphaXiv de Stanford est en ligne, LeCun l'aime

Une avancée significative dans l'hypothèse de Riemann ! Tao Zhexuan recommande fortement les nouveaux articles du MIT et d'Oxford, et le lauréat de la médaille Fields, âgé de 37 ans, a participé Aug 05, 2024 pm 03:32 PM

La formation Axiom permet au LLM d'apprendre le raisonnement causal : le modèle à 67 millions de paramètres est comparable au niveau de mille milliards de paramètres GPT-4. Jul 17, 2024 am 10:14 AM

La formation Axiom permet au LLM d'apprendre le raisonnement causal : le modèle à 67 millions de paramètres est comparable au niveau de mille milliards de paramètres GPT-4.

See all articles