Après le modèle d'image open source Stable Diffusion, « l'art IA » a été complètement démocratisé. Seule une carte graphique grand public peut être utilisée pour créer de très belles images.
Dans le domaine de la conversion texte-vidéo, actuellement le seul modèle commercial Gen-2 de haute qualité lancé par Runway il n'y a pas si longtemps est le seul modèle capable de rivaliser dans l'industrie open source.
Récemment, un auteur sur Huggingface a publié un modèle de synthèse de texte en vidéo Zeroscope_v2, qui a été développé sur la base du modèle de synthèse de texte en vidéo ModelScope avec 1,7 milliard de paramètres.
Photos
Lien du modèle : https://huggingface.co/cerspense/zeroscope_v2_576w
Par rapport à la version originale, la vidéo générée par Zeroscope n'a pas de filigrane, et la fluidité et la résolution sont améliorées Amélioré pour s'adapter au format d'image 16:9.
Le développeur Cerspense a déclaré que son objectif est de rivaliser avec Gen-2 en tant qu'open source, c'est-à-dire que tout en améliorant la qualité du modèle, il peut également être utilisé librement par le public.
Zeroscope_v2 comprend deux versions. Parmi elles, Zeroscope_v2 567w peut générer rapidement une vidéo avec une résolution de 576x320 pixels et une fréquence d'images de 30 images/seconde. Il peut être utilisé pour une vérification rapide des concepts vidéo et ne nécessite qu'environ 7,9. Go de mémoire vidéo à exécuter.
Utilisez Zeroscope_v2 XL pour générer une vidéo haute définition avec une résolution de 1024x576 et occuper environ 15,3 Go de mémoire vidéo.
Zeroscope peut également être utilisé avec l'outil de génération musicale MusicGen pour créer rapidement une courte vidéo purement originale.
La formation du modèle Zeroscope utilise 9923 clips vidéo (clips) et 29769 images annotées, chaque clip comprend 24 images. Le bruit de décalage inclut des déplacements aléatoires d'objets dans les images vidéo, de légers changements dans la synchronisation des images ou de petites distorsions.
L'introduction de bruit pendant l'entraînement peut améliorer la compréhension du modèle de la distribution des données, lui permettant de générer des vidéos plus diversifiées et plus réalistes et d'expliquer plus efficacement les changements dans les descriptions textuelles.
Utiliser le webui de diffusion stable
Téléchargez le fichier de poids dans le répertoire zs2_XL sur Huggingface, puis placez-le dans le répertoire stable-diffusion-webuimodelsModelScopet2v.
Lors de la génération de vidéos, la valeur d'intensité de réduction du bruit recommandée est de 0,66 à 0,85
Utilisez Colab
Remarquez le lien : https://colab.research.google.com / drive/1TsZmatSu1-1lNBeOqz3_9Zq5P2c0xTTq?usp=sharing
Cliquez d'abord sur le bouton Exécuter à l'étape 1 et attendez l'installation, qui prendra environ 3 minutes ;
Image
Quand une coche verte apparaît à côté du bouton , passez à l'étape suivante.
Photos
Cliquez sur le bouton Exécuter à côté du modèle que vous souhaitez installer Afin d'obtenir rapidement une vidéo éditée de 3 secondes dans Colab, il est recommandé d'utiliser un modèle ZeroScope basse résolution (576 ou 576). 448).
Les images
nécessitent un compromis sur des temps d'exécution plus longs lors de l'exécution de modèles à plus haute résolution tels que Potat 1 ou ZeroScope XL.
Attendez à nouveau que la coche apparaisse pour passer à l'étape suivante.
Sélectionnez le modèle installé à l'étape 2 et souhaitez l'utiliser. Pour les modèles à plus haute résolution, les paramètres de configuration suivants sont recommandés, qui ne nécessitent pas de temps de génération trop long.
Photos
Ensuite, vous pouvez saisir les mots d'invite de la vidéo cible pour modifier l'effet, et vous pouvez également saisir des invites négatives (invites négatives), puis cliquer sur le bouton Exécuter.
Après avoir attendu un moment, la vidéo générée sera placée dans le répertoire des sorties.
photos
Actuellement, le domaine de Vincent Vidéo en est encore à ses balbutiements, et même les meilleurs outils ne peuvent générer que des vidéos de quelques secondes, et présentent souvent de gros défauts visuels.
Mais en fait, le modèle vincentien a d'abord été confronté à des problèmes similaires, mais il a atteint le photoréalisme quelques mois plus tard.
Cependant, contrairement au modèle graphique vincentien, le domaine vidéo nécessite plus de ressources lors de la formation et de la génération que les images.
Bien que Google ait développé des modèles Phenaki et Imagen Video capables de générer des clips vidéo haute résolution, plus longs et logiquement cohérents, ces deux modèles ne sont pas accessibles au public ; le modèle Make-a-Video de Meta n'est pas non plus publié ; .
Les outils actuellement disponibles ne sont encore que le modèle commercial Gen-2 de Runway. La sortie de Zeroscope marque également l'émergence du premier modèle open source de haute qualité dans le domaine de la vidéo Vincent.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!