En une seule phrase, Hulk peut mettre des lunettes VR.
Qualité 4K.
Panda's Life of Fantasy~
Il s'agit du dernier modèle de génération de vidéo IA de Byte MagicVideo-V2, toutes sortes d'idées fantastiques peuvent être réalisées. Il prend non seulement en charge les résolutions ultra-hautes 4K et 8K, mais peut facilement contenir différents styles de dessin.
L'effet d'évaluation dépasse Gen-2, Pika et les outils de génération vidéo AI existants.
En conséquence, dans les 24 heures suivant sa mise en ligne, il a attiré beaucoup d'attention. Par exemple, un tweet a été vu près de 200 000.
De nombreux internautes ont été surpris par son effet, et ont même dit sans détour : C'est mieux que la piste et le pika.
Les chercheurs ont procédé à une véritable comparaison des effets. Les concurrents sont : MagicVideo-V2, SVD-XT de StabilityAI, le nouveau joueur potentiel Pika1.0 et Gen-2 de Runway.
Tour 1 : Effets de lumière et d'ombre.
Au coucher du soleil, le voyageur se promène seul dans la forêt brumeuse.
(de gauche à droite : MagicVideo-V2, SVD-XT, Pika en haut à droite, Gen-2 en bas à droite, le même ci-dessous)
Vous pouvez voir que MagicVideo-V2, Gen-2 et Pika a une lumière et une ombre évidentes. Cependant, Pika ne peut pas être considéré comme destiné aux voyageurs, car MagicVideo-V2 a des tons plus riches.
Round 2 : Expression de l'intrigue situationnelle.
Une sitcom dans les années 1910, racontant la vie quotidienne et des sujets insignifiants de la société
Ce tour, MagicVideo-V2 et Gen-2 sont évidemment meilleurs. Bien que la composition milieu de gamme présentée par SVD-XT reflète l'âge, elle n'est pas assez expressive.
Tour 3 : Réaliste.
Le petit garçon faisait du vélo sur le chemin du parc, et les roues faisaient un bruit de craquement sur le gravier.
Cette fois, le contraste est encore plus évident. MagicVideo-V2 et SVD-XT reflètent pleinement le sens de la phrase, mais MagicVideo-V2 peut voir les détails des pieds clairement en mouvement de l'enfant.
De plus, les chercheurs ont également mené des évaluations individuelles de MagicVideo-V2 par rapport aux méthodes de pointe.
Les résultats montrent que les gens pensent que MagicVideo-V2 fonctionne mieux que d'autres méthodes.
(Les barres vertes, grises et roses représentent les résultats expérimentaux où MagicVideo-V2 est noté respectivement meilleur, équivalent ou pire.)
En termes simples, MagicVideo-V2 est un pipeline de génération vidéo qui intègre un modèle texte-image, un générateur de mouvement vidéo, un module d'intégration d'images de référence et un module d'interpolation.
Tout d'abord, le module T2I génère d'abord une image 1024×1024 basée sur le texte, puis le module I2V anime l'image statique pour générer une séquence d'images 600×600×32, puis utilise le module V2V pour améliorer et améliorer le contenu vidéo, et enfin utiliser le module d'interpolation pour étendre la séquence à 94 images.
De cette manière, la haute fidélité et la continuité dans le temps sont assurées.
Mais dès novembre 2022, Byte a lancé la version MagicVideo V1.
Cependant, à cette époque, l'accent était davantage mis sur l'efficacité, qui pouvait générer une vidéo de résolution 256x256 sur une seule carte GPU.
Lien de référence :
https://twitter.com/arankomatsuzaki/status/1744918551415443768?s=20
Lien du projet :
https://magicvideov2.github.io/
Lien papier :
https://arxiv.org/abs/2401.04468
https://arxiv.org/abs/2211.11018
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!