Table des matières
Aperçu de la méthode
Génération d'images cohérentes sans formation
Résultats expérimentaux
Maison Périphériques technologiques IA LeCun sur la lune ? Nankai et Byte open source StoryDiffusion pour rendre les bandes dessinées multi-images et les longues vidéos plus cohérentes

LeCun sur la lune ? Nankai et Byte open source StoryDiffusion pour rendre les bandes dessinées multi-images et les longues vidéos plus cohérentes

May 06, 2024 pm 04:10 PM
git ai 模型

Il y a deux jours, Yann LeCun, lauréat du prix Turing, a republié la longue bande dessinée "Allez sur la Lune et explorez-vous", qui a suscité de vives discussions parmi les internautes.

LeCun sur la lune ? Nankai et Byte open source StoryDiffusion pour rendre les bandes dessinées multi-images et les longues vidéos plus cohérentes

Dans l'article "Story Diffusion: Consistent Self-Attention for long-range image and video Generation", l'équipe de recherche a proposé une nouvelle méthode appelée Story Diffusion pour générer des images et des vidéos cohérentes pour décrire des situations complexes. Les recherches sur ces bandes dessinées proviennent d'institutions telles que l'Université de Nankai et ByteDance.

LeCun sur la lune ? Nankai et Byte open source StoryDiffusion pour rendre les bandes dessinées multi-images et les longues vidéos plus cohérentes

  • Adresse papier : https://arxiv.org/pdf/2405.01434v1
  • Page d'accueil du projet : https://storydiffusion.github.io/

Des projets associés sont déjà en cours GitHub A obtenu un montant de 1 000 étoiles.

LeCun sur la lune ? Nankai et Byte open source StoryDiffusion pour rendre les bandes dessinées multi-images et les longues vidéos plus cohérentes

Adresse GitHub : https://github.com/HVision-NKU/StoryDiffusion

Selon la démonstration du projet, StoryDiffusion peut générer des bandes dessinées de styles variés, racontant une histoire cohérente tout en conservant la cohérence des personnages. style et vêtements.

LeCun sur la lune ? Nankai et Byte open source StoryDiffusion pour rendre les bandes dessinées multi-images et les longues vidéos plus cohérentes

StoryDiffusion peut conserver l'identité de plusieurs personnages simultanément et générer des personnages cohérents à travers une série d'images.

LeCun sur la lune ? Nankai et Byte open source StoryDiffusion pour rendre les bandes dessinées multi-images et les longues vidéos plus cohérentes

De plus, StoryDiffusion est capable de générer des vidéos de haute qualité conditionnées par des images cohérentes générées ou des images saisies par l'utilisateur.

LeCun sur la lune ? Nankai et Byte open source StoryDiffusion pour rendre les bandes dessinées multi-images et les longues vidéos plus cohérentes

LeCun sur la lune ? Nankai et Byte open source StoryDiffusion pour rendre les bandes dessinées multi-images et les longues vidéos plus cohérentes

Nous savons que maintenir la cohérence du contenu à travers une série d'images générées, en particulier celles contenant des sujets et des détails complexes, est un défi important pour les modèles génératifs basés sur la diffusion.

Par conséquent, l'équipe de recherche a proposé une nouvelle méthode de calcul de l'auto-attention, appelée Consistent Self-Attention, en établissant des connexions entre les images au sein d'un lot lors de la génération d'images et en générant des images thématiquement cohérentes sans formation.

Afin d'étendre cette méthode à la génération de vidéos longues, l'équipe de recherche a introduit un prédicteur de mouvement sémantique (Semantic Motion Predictor), qui encode les images dans l'espace sémantique et prédit le mouvement dans l'espace sémantique pour générer des vidéos. C’est plus stable que la prédiction de mouvement basée uniquement sur l’espace latent.

Effectuez ensuite l'intégration du framework, combinant une attention personnelle cohérente et des prédicteurs de mouvement sémantique pour générer des vidéos cohérentes et raconter des histoires complexes. StoryDiffusion peut générer des vidéos plus fluides et plus cohérentes que les méthodes existantes.

LeCun sur la lune ? Nankai et Byte open source StoryDiffusion pour rendre les bandes dessinées multi-images et les longues vidéos plus cohérentes

Figure 1 : Images et vidéos générées par le StroyDiffusion de l'équipe

Aperçu de la méthode

La méthode de l'équipe de recherche peut être divisée en deux étapes, comme le montrent les figures 2 et 3.

Dans la première étape, StoryDiffusion utilise l'auto-attention cohérente pour générer des images cohérentes avec un sujet sans formation. Ces images cohérentes peuvent être utilisées directement dans la narration ou comme contribution à une deuxième étape. Dans un deuxième temps, StoryDiffusion crée des vidéos de transition cohérentes basées sur ces images cohérentes.

LeCun sur la lune ? Nankai et Byte open source StoryDiffusion pour rendre les bandes dessinées multi-images et les longues vidéos plus cohérentes

Figure 2 : Présentation du processus StoryDiffusion pour générer des images cohérentes avec un thème

LeCun sur la lune ? Nankai et Byte open source StoryDiffusion pour rendre les bandes dessinées multi-images et les longues vidéos plus cohérentesFigure 3 : Méthode de génération de vidéos de transition pour obtenir des images cohérentes avec un thème.

Génération d'images cohérentes sans formation

L'équipe de recherche a introduit la méthode "comment générer des images cohérentes avec un thème sans formation". La clé pour résoudre le problème ci-dessus est de savoir comment maintenir la cohérence des caractères dans un lot d'images. Cela signifie que lors du processus de génération, ils doivent établir des connexions entre un lot d'images.

Après avoir réexaminé le rôle des différents mécanismes d'attention dans le modèle de diffusion, ils ont été inspirés pour explorer l'utilisation de l'auto-attention pour maintenir la cohérence des images au sein d'un lot d'images, et ont proposé une auto-attention cohérente - Attention ).

L'équipe de recherche insère une auto-attention cohérente dans la position d'auto-attention d'origine dans l'architecture U-Net du modèle de génération d'images existant, et réutilise les poids d'auto-attention d'origine pour ne maintenir aucune formation et plug-and-play Fonctionnalités utilisées.

À partir de jetons appariés, la méthode de l’équipe de recherche effectue une auto-attention sur un lot d’images, favorisant les interactions entre les différentes caractéristiques de l’image. Ce type d'interaction entraîne la convergence du modèle sur les personnages, les visages et les vêtements au cours de la génération. Bien que la méthode d’auto-attention cohérente soit simple et ne nécessite aucune formation, elle peut générer efficacement des images thématiquement cohérentes.

Pour illustrer plus clairement, l'équipe de recherche montre le pseudocode dans l'algorithme 1.

LeCun sur la lune ? Nankai et Byte open source StoryDiffusion pour rendre les bandes dessinées multi-images et les longues vidéos plus cohérentes

Semantic Motion Predictor pour la génération vidéo

L'équipe de recherche a proposé le Semantic Motion Predictor (Semantic Motion Predictor), qui encode les images dans l'espace sémantique de l'image pour capturer des informations spatiales. Cela permet un mouvement plus précis prédiction à partir d’une image de début et d’une image de fin données.

Plus précisément, dans le prédicteur de mouvement sémantique proposé par l'équipe, ils utilisent d'abord une fonction E pour établir un mappage à partir d'images RVB vers des vecteurs d'espace sémantique d'image pour coder des informations spatiales.

L'équipe n'a pas utilisé directement la couche linéaire comme fonction E. Au lieu de cela, elle a utilisé un encodeur d'image CLIP pré-entraîné comme fonction E pour profiter de sa capacité de tir zéro pour améliorer les performances.

À l'aide de la fonction E, la trame de début F_s et la trame de fin données F_e sont compressées en vecteurs d'espace sémantique d'image K_s et K_e.

LeCun sur la lune ? Nankai et Byte open source StoryDiffusion pour rendre les bandes dessinées multi-images et les longues vidéos plus cohérentes

Résultats expérimentaux

En termes de génération d'images cohérentes avec un sujet, puisque la méthode de l'équipe ne nécessite aucune formation et est plug-and-play, ils ont utilisé deux versions de Stable Diffusion XL et Stable Diffusion 1.5 All mis en œuvre cette méthode. Pour être cohérents avec les modèles comparés, ils ont utilisé les mêmes poids pré-entraînés sur le modèle Stable-XL à des fins de comparaison.

Pour générer des vidéos cohérentes, les chercheurs ont mis en œuvre leur méthode de recherche basée sur le modèle spécialisé Stable Diffusion 1.5 et ont intégré un module temporel pré-entraîné pour prendre en charge la génération de vidéos. Tous les modèles comparés utilisent un score de guidage sans classificateur de 7,5 et un échantillonnage DDIM en 50 étapes.

Comparaison de génération d'images cohérentes

L'équipe a évalué son approche pour générer des images cohérentes par sujet en la comparant à deux méthodes de préservation d'identité de pointe : IP-Adapter et Photo Maker.

Pour tester les performances, ils ont utilisé GPT-4 pour générer vingt instructions de rôle et cent instructions d'activité pour décrire des activités spécifiques.

Les résultats qualitatifs sont présentés dans la figure 4 : "StoryDiffusion est capable de générer des images très cohérentes. Alors que d'autres méthodes, telles que IP-Adapter et PhotoMaker, peuvent produire des images avec des vêtements incohérents ou une contrôlabilité réduite du texte."

LeCun sur la lune ? Nankai et Byte open source StoryDiffusion pour rendre les bandes dessinées multi-images et les longues vidéos plus cohérentes

Figure 4 : Comparaison de la génération d'images cohérentes avec les méthodes actuelles

Les chercheurs présentent les résultats de la comparaison quantitative dans le tableau 1. Les résultats montrent : "StoryDiffusion de l'équipe a obtenu les meilleures performances sur les deux mesures quantitatives, indiquant que la méthode peut bien s'adapter à la description de l'invite tout en conservant les caractéristiques des personnages, et montre sa robustesse." génération d'images cohérentes

LeCun sur la lune ? Nankai et Byte open source StoryDiffusion pour rendre les bandes dessinées multi-images et les longues vidéos plus cohérentesComparaison de la génération de vidéos de transition

En termes de génération de vidéos de transition, l'équipe de recherche a comparé deux méthodes de pointe - SparseCtrl et SEINE - Des comparaisons ont été faites pour évaluer les performances.

Ils ont mené une comparaison qualitative de la génération de vidéos de transition et ont montré les résultats dans la figure 5. Les résultats montrent : "La StoryDiffusion de l'équipe est nettement meilleure que SEINE et SparseCtrl, et la vidéo de transition générée est à la fois fluide et cohérente avec les principes physiques." -méthodes art Comparaison de génération vidéo

Ils ont également comparé cette méthode avec SEINE et SparseCtrl et ont utilisé quatre indicateurs quantitatifs, notamment LPIPSfirst, LPIPS-frames, CLIPSIM-first et CLIPSIM-frames, comme indiqué dans le tableau 2.

LeCun sur la lune ? Nankai et Byte open source StoryDiffusion pour rendre les bandes dessinées multi-images et les longues vidéos plus cohérentesTableau 2 : Comparaison quantitative avec le modèle actuel de génération de vidéo de transition de pointe

Veuillez vous référer à l'article original pour plus de détails techniques et expérimentaux.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment résoudre le problème de l'interface tiers renvoyant 403 dans l'environnement Node.js? Comment résoudre le problème de l'interface tiers renvoyant 403 dans l'environnement Node.js? Mar 31, 2025 pm 11:27 PM

Résolvez le problème de l'interface tiers renvoyant 403 dans l'environnement Node.js. Lorsque nous utilisons Node.js pour appeler des interfaces tierces, nous rencontrons parfois une erreur de 403 à partir de l'interface renvoyant 403 ...

Dans Laravel, comment gérer la situation où les codes de vérification ne sont pas envoyés par e-mail? Dans Laravel, comment gérer la situation où les codes de vérification ne sont pas envoyés par e-mail? Mar 31, 2025 pm 11:48 PM

La méthode de traitement de l'échec de l'e-mail de Laravel à envoyer le code de vérification est d'utiliser Laravel ...

Comment définir automatiquement les autorisations d'UnixSocket après le redémarrage du système? Comment définir automatiquement les autorisations d'UnixSocket après le redémarrage du système? Mar 31, 2025 pm 11:54 PM

Comment définir automatiquement les autorisations d'UnixSocket après le redémarrage du système. Chaque fois que le système redémarre, nous devons exécuter la commande suivante pour modifier les autorisations d'UnixSocket: sudo ...

Comment implémenter le tri et ajouter des classements dans des tableaux bidimensionnels PHP? Comment implémenter le tri et ajouter des classements dans des tableaux bidimensionnels PHP? Apr 01, 2025 am 07:00 AM

Explication détaillée du tri et de la mise en œuvre du tableau bidimensionnel PHP Cet article expliquera en détail comment trier un tableau bidimensionnel PHP et utiliser chaque sous-tableau en fonction des résultats de tri ...

Pourquoi une erreur se produit-elle lors de l'installation d'une extension à l'aide de PECL dans un environnement Docker? Comment le résoudre? Pourquoi une erreur se produit-elle lors de l'installation d'une extension à l'aide de PECL dans un environnement Docker? Comment le résoudre? Apr 01, 2025 pm 03:06 PM

Causes et solutions pour les erreurs Lors de l'utilisation de PECL pour installer des extensions dans un environnement Docker Lorsque nous utilisons un environnement Docker, nous rencontrons souvent des maux de tête ...

Comment obtenir le code de retour lorsque l'envoi par e-mail échoue à Laravel? Comment obtenir le code de retour lorsque l'envoi par e-mail échoue à Laravel? Apr 01, 2025 pm 02:45 PM

Méthode pour obtenir le code de retour lorsque l'envoi par e-mail de Laravel échoue. Lorsque vous utilisez Laravel pour développer des applications, vous rencontrez souvent des situations où vous devez envoyer des codes de vérification. Et en réalité ...

OUYI OKEX Global Site Site Web Office Site Web Login Entrance 2025 OUYI OKEX Global Site Site Web Office Site Web Login Entrance 2025 Mar 31, 2025 pm 03:45 PM

OUYI OKX (anciennement OKEX) Global Station est une plate-forme de service d'actifs numériques de pointe fondée en 2017 et dont le siège est à Malte. Il compte des dizaines de millions d'utilisateurs. La plate-forme fournit des transactions de plus de 150 devises et a formulé un mécanisme d'audit en devises strict et un mécanisme de surveillance du marché et de suivi des progrès. Soutient les transactions de plus de 20 devises juridiques et des crypto-monnaies telles que le dollar américain, l'euro et la livre.

Comment PHP implémente-t-il le cryptage AES et le décryptage conformément à Java? Comment PHP implémente-t-il le cryptage AES et le décryptage conformément à Java? Apr 01, 2025 am 07:15 AM

Comment implémenter le cryptage et le déchiffrement AES avec Java ...

See all articles