Stability AI, une société de dessin d'IA bien connue, est enfin entrée dans l'industrie de la vidéo générée par l'IA.
Ce mardi, Stable Video Diffusion, un modèle de génération vidéo basé sur une diffusion stable, a été lancé, et la communauté de l'IA a immédiatement lancé une discussion
Beaucoup de gens ont dit "Nous avons finalement attendu."
Lien du projet : https://github.com/Stability-AI/generative-models
Vous pouvez désormais utiliser des images statiques existantes pour générer quelques secondes de vidéo
basé sur la stabilité Le modèle graphique Stable Diffusion original d'AI, Stable Video Diffusion, est devenu l'un des rares modèles de génération vidéo dans les rangs open source ou commerciaux.
Mais il n'est pas encore accessible à tout le monde, Stable Video Diffusion a ouvert l'inscription des utilisateurs sur liste d'attente (https://stability.ai/contact).
Selon l'introduction, la propagation vidéo stable peut être facilement adaptée à une variété de tâches en aval, y compris la synthèse multi-vues à partir d'une seule image en affinant les ensembles de données multi-vues. Stable AI a déclaré que divers modèles sont prévus pour construire et étendre cette fondation, similaire à l'écosystème construit autour de la diffusion stable
via une vidéo stable, qui peut se propager de 3 à 30 fois par seconde Cadre personnalisable le taux d'images génère des vidéos de 14 et 25 images
Lors d'évaluations externes, Stability AI a confirmé que ces modèles surpassaient les principaux modèles fermés dans la recherche sur les préférences des utilisateurs :
Stability AI Il est souligné que Stable La diffusion vidéo n'est pas adaptée aux applications réelles ou commerciales directes à ce stade, et le modèle sera amélioré en fonction des informations et des commentaires des utilisateurs sur la sécurité et la qualité.
Adresse papier : https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets
La transmission vidéo stable est A membre de la famille de modèles open source AI stable. Il semble désormais que leurs produits couvrent de multiples modalités telles que les images, le langage, l'audio, la 3D et le code, ce qui prouve pleinement leur engagement à améliorer l'intelligence artificielle
Stable Comme potentiel Modèle de diffusion pour les vidéos haute résolution, le modèle de diffusion vidéo a atteint le niveau SOTA de texte en vidéo ou d'image en vidéo. Récemment, des modèles de diffusion latente entraînés pour la synthèse d'images 2D ont été transformés en modèles vidéo génératifs en insérant des couches temporelles et en les affinant sur de petits ensembles de données vidéo de haute qualité. Cependant, les méthodes de formation varient considérablement dans la littérature, et le domaine n'a pas encore convenu d'une stratégie unifiée pour la curation des données vidéo
Dans l'article Stable Video Diffusion, Stability AI identifie et évalue trois étapes distinctes pour une formation réussie de la vidéo latente. modèles de diffusion : Pré-formation texte-image, pré-formation vidéo et mise au point vidéo haute qualité. Ils démontrent également l'importance d'ensembles de données de pré-formation soigneusement préparés pour générer des vidéos de haute qualité et décrivent un processus de curation systématique pour former un modèle de base solide, comprenant des sous-titres et des stratégies de filtrage.
Stability AI explore également dans l'article l'impact du réglage fin du modèle de base sur des données de haute qualité et forme un modèle texte-vidéo comparable à la génération de vidéo à source fermée. Le modèle fournit une représentation de mouvement puissante pour les tâches en aval telles que la génération d'image en vidéo et l'adaptabilité aux modules LoRA spécifiques au mouvement de la caméra. En outre, le modèle peut également fournir un puissant a priori 3D multi-vues, qui peut être utilisé comme base d'un modèle de diffusion multi-vues. Le modèle génère plusieurs vues d'un objet de manière anticipée, ne nécessitant qu'un petit calcul. exigences de puissance et performances Surclasse également les méthodes basées sur l'image .
Plus précisément, réussir la formation de ce modèle nécessite les trois étapes suivantes :
Phase 1 : Pré-formation de l'image. Cet article considère la pré-formation des images comme la première étape du pipeline de formation et construit le modèle initial sur Stable Diffusion 2.1, équipant ainsi le modèle vidéo d'une représentation visuelle puissante. Afin d'analyser l'effet du pré-entraînement d'image, cet article entraîne et compare également deux modèles vidéo identiques. Les résultats de la figure 3a montrent que le modèle d'image pré-entraîné est préféré en termes de qualité et de suivi des signaux.
Phase 2 : Ensemble de données vidéo de pré-entraînement. Cet article s'appuie sur les préférences humaines comme signaux pour créer des ensembles de données de pré-entraînement appropriés. L'ensemble de données créé dans cet article est LVD (Large Video Dataset), qui se compose de 580 millions de paires de clips vidéo annotés.
Une enquête plus approfondie a révélé que l'ensemble de données généré contenait des exemples susceptibles de dégrader les performances du modèle vidéo final. Par conséquent, dans cet article, nous utilisons un flux optique dense pour annoter l'ensemble de données
De plus, cet article applique également la reconnaissance optique de caractères pour nettoyer les clips contenant une grande quantité de texte. Enfin, nous utilisons les intégrations CLIP pour annoter les première, centrale et dernière images de chaque clip. Le tableau suivant fournit quelques statistiques sur l'ensemble de données LVD :
Phase 3 : Réglage fin de haute qualité. Pour analyser l'impact de la pré-formation vidéo sur l'étape finale, cet article affine trois modèles qui ne diffèrent que par l'initialisation. La figure 4e montre les résultats.
On dirait que c'est un bon début. Quand pourrons-nous utiliser l’IA pour générer directement un film ?
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!