Stable Video Diffusion a enfin commencé à traiter les vidéos -
publié le modèle vidéo génératif Stable Video Diffusion (SVD).
Le blog officiel de Stability AI montre que le nouveau SVD prend en charge la génération de texte en vidéo et d'image en vidéo :
et prend également en charge la conversion d'objets d'une perspective unique à plusieurs perspectives, c'est-à-dire la synthèse 3D. :
Selon une évaluation externe, les responsables affirment que SVD est encore plus populaire auprès des utilisateurs que Runway et l'IA de génération vidéo de Pika. Bien que seul le modèle de base ait été publié jusqu'à présent, le responsable a révélé qu'"il prévoit de continuer à se développer et à établir un écosystème similaire à une diffusion stable" Le grammage du code papier est actuellement en ligne. Récemment, de nouvelles méthodes ont vu le jour dans le domaine de la génération vidéo. C'est désormais au tour de Stable Diffusion d'apparaître, si bien que les internautes ont déploré "rapidement", de tels progrès sont trop rapides ! Mais rien qu'à cause de l'effet démo, davantage d'internautes ont déclaré qu'ils n'étaient pas très surpris. Bien que j'aime le SD, et ces démos sont géniales... mais il y a aussi quelques défauts, l'éclairage et les ombres sont faux, et l'incohérence globale(scintillement entre les images vidéo).
Dans l'ensemble, c'est le début. Les internautes sont très optimistes quant à la fonction de synthèse 3D de SVD : Je peux vous garantir que quelque chose de mieux sortira bientôt. Il me suffit de le décrire brièvement pour le présenter. Une scène 3D complète La version officielle de la vidéo SD arriveEn plus de ce qui est montré ci-dessus, le responsable a également publié plus de démos, jetons d'abord un coup d'œil : Les promenades dans l'espace sont également programmé : Vous pouvez également garder l'arrière-plan immobile et laisser uniquement les deux oiseaux bouger : Le document de recherche sur SVD a également été publié. Selon les rapports, SVD est basé sur Stable Diffusion 2.1 et utilise. un ensemble de données vidéo d'environ 600 millions d'échantillons. Le modèle de base est pré-entraîné. Facilement adaptable à une variété de tâches en aval, y compris la synthèse multi-vues à partir d'une seule image en affinant les ensembles de données multi-vues. Après mise au point, deux modèles d'image en vidéo ont été officiellement annoncés. Ces modèles peuvent générer des vidéos de 14 images (SVD) et 25 images (SVD-XT) à des fréquences d'images personnalisées de 3 à 30 images par seconde en fonction des besoins de l'utilisateur Modèles de génération vidéo multi-vues affinés Enfin , nous l'avons nommé SVD-MV Selon les résultats des tests, sur l'ensemble de données GSO, SVD-MV a obtenu de meilleurs résultats que le modèle de génération multi-vue Zero123, Zero123XL, SyncDreamer :Il convient de mentionner que Stability AI indique que SVD est actuellement limité à la recherche et ne convient pas aux applications pratiques ou commerciales. SVD n'est actuellement pas disponible pour tout le monde, mais l'inscription sur la liste d'attente des utilisateurs est ouverte.
Récemment, il y a eu un état de "mêlée" dans le domaine de la génération vidéo
Auparavant, il y avait Vincent Video AI développé par PikaLabs :
Plus tard, il y en a eu un autre appelé "la vidéo la plus puissante de l'histoire" Génération d'IAMoonvalleylancé :
Récemment, la fonction "Motion Brush" de Gen-2 a également été officiellement lancée, vous pouvez dessiner où vous voulez :
Maintenant, SVD est réapparu, et il y a un autre besoin. Il est possible de générer des vidéos 3D
Mais il ne semble pas y avoir beaucoup de progrès dans la génération de texte en 3D, et les internautes sont également très confus à propos de ce phénomène
Certains. les gens pensent que les données sont le goulot d'étranglement qui entrave le développement :
Certains internautes pensent que le problème est que la capacité d'apprentissage par renforcement n'est pas assez forte
Connaissez-vous les derniers progrès dans ce domaine Bienvenue sur ? partager dans la zone de commentaires~
Lien papier : https://static1.squarespace .com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf Ce qu'il faut réécrire c'est :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!