Zhipu AI a open source le grand modèle qu'il a développé en interne.
Le domaine de la génération vidéo domestique devient de plus en plus populaire. Tout à l'heure, Zhipu AI a annoncé qu'il ouvrirait la source CogVideoX, un modèle de génération vidéo avec la même origine que "Qingying". Gagnez 4 000 étoiles en quelques heures seulement.
- Référentiel de codes : https://github.com/THUDM/CogVideo
- Téléchargement du modèle : https://huggingface.co/THUDM/CogVideoX-2b
- Rapport technique : https : //github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
Le 26 juillet, Zhipu AI a officiellement lancé le produit de génération vidéo "Qingying", qui a été largement salué par tout le monde. . Tant que vous avez une bonne idée (quelques mots à quelques centaines de mots) et un peu de patience (30 secondes), « Qingying » peut générer une vidéo de haute précision avec une résolution de 1440 x 960. Il est officiellement annoncé qu'à partir de maintenant, Qingying lancera l'application Qingyan, et tous les utilisateurs pourront en faire l'expérience de manière complète. Les amis qui veulent l'essayer peuvent se rendre sur « Zhipu Qingyan » pour découvrir la capacité de « Qingying » à générer des vidéos. L'émergence de "Qingying" est saluée comme le premier Sora accessible à tous en Chine. Six jours après sa sortie, le nombre de vidéos générées par « Qingying » dépassait le million.
- Lien d'accès PC : https://chatglm.cn/
- Lien d'accès mobile : https://chatglm.cn/download?fr=web_home
Pourquoi le Le modèle open source Zhipu AI est-il si populaire ? Vous devez savoir que bien que la technologie de génération vidéo mûrisse progressivement, il n'existe toujours pas de modèle de génération vidéo open source capable de répondre aux exigences des applications de niveau commercial. Les familiers Sora, Gen-3, etc. sont tous de source fermée. L'open source de CogVideoX est comme l'open source OpenAI du modèle derrière Sora, qui revêt une grande importance pour la majorité des chercheurs. Le modèle open source CogVideoX comprend plusieurs modèles de différentes tailles. Actuellement, le CogVideoX-2B open source de Zhipu AI ne nécessite que 18 Go de mémoire vidéo pour l'inférence avec une précision FP-16 et seulement 40 Go de mémoire vidéo pour le réglage fin. qu'une seule carte graphique A 4090 peut effectuer une inférence, tandis qu'une seule carte graphique A6000 peut effectuer un réglage fin. La limite de mots d'invite de CogVideoX-2B est de 226 jetons, la durée de la vidéo est de 6 secondes, la fréquence d'images est de 8 images/seconde et la résolution vidéo est de 720*480. Zhipu AI a réservé un vaste espace pour l'amélioration de la qualité vidéo, et nous attendons avec impatience les contributions open source des développeurs pour optimiser les mots, la durée de la vidéo, la fréquence d'images, la résolution, le réglage fin de la scène et le développement de diverses fonctions autour de la vidéo. . Des modèles avec des performances plus élevées et des paramètres plus larges sont en route, alors restez à l'écoute et attendez-les avec impatience. Les données vidéo contiennent des informations spatiales et temporelles, de sorte que leur volume de données et leur charge de calcul dépassent de loin ceux des données d'image. Pour relever ce défi, Zhipu a proposé une méthode de compression vidéo basée sur un auto-encodeur variationnel 3D (3D VAE). La VAE 3D compresse simultanément les dimensions spatiales et temporelles de la vidéo grâce à une convolution tridimensionnelle, permettant d'obtenir des taux de compression plus élevés et une meilleure qualité de reconstruction. La structure du modèle comprend un encodeur, un décodeur et un régularisateur d'espace latent, et la compression est obtenue grâce à quatre étapes de sous-échantillonnage et de suréchantillonnage. La convolution causale temporelle garantit la causalité des informations et réduit les frais généraux de communication. Zhipu utilise la technologie de parallélisme contextuel pour s'adapter au traitement vidéo à grande échelle. Dans l'expérience, Zhipu AI a découvert que l'encodage à grande résolution est facile à généraliser, mais qu'augmenter le nombre d'images est plus difficile. Par conséquent, Zhipu entraîne le modèle en deux étapes : d'abord un entraînement sur des fréquences d'images inférieures et des mini-lots, puis un réglage fin sur des fréquences d'images plus élevées grâce au parallélisme contextuel. La fonction de perte d'entraînement combine la perte L2, la perte de perception LPIPS et la perte GAN pour le discriminateur 3D. Wisdom Spectrum AI utilise l'encodeur de VAE pour compresser la vidéo dans un espace latent, puis divise l'espace latent en morceaux et l'étend en intégrations de longues séquences z_vision. Dans le même temps, Zhipu AI utilise T5 pour encoder la saisie de texte dans du texte incorporant z_text, puis fusionner z_text et z_vision le long de la dimension de la séquence. Les intégrations épissées sont introduites dans une pile de blocs Transformer experts pour le traitement. Enfin, les intégrations sont recousues pour récupérer la forme originale de l'espace latent et décodées à l'aide de VAE pour reconstruire la vidéo.
La formation du modèle de génération vidéo nécessite le criblage de données vidéo de haute qualité pour apprendre la dynamique du monde réel. La vidéo peut être inexacte en raison de problèmes de montage ou de tournage humains. Wisdom AI a développé des balises négatives pour identifier et exclure les vidéos de mauvaise qualité telles que les vidéos suréditées, saccadées, de mauvaise qualité, de style cours magistral, dominées par le texte et le bruit d'écran. Grâce à des filtres entraînés par vidéo-llama, Zhipu AI a annoté et filtré 20 000 points de données vidéo. Dans le même temps, le flux optique et les scores esthétiques sont calculés, et le seuil est ajusté dynamiquement pour garantir la qualité de la vidéo générée. Les données vidéo n'ont généralement pas de descriptions textuelles et doivent être converties en descriptions textuelles pour la formation du modèle texte-vidéo. Les ensembles de données de sous-titres vidéo existants comportent des sous-titres courts et ne peuvent pas décrire entièrement le contenu vidéo. Zhipu AI propose un pipeline pour générer des sous-titres vidéo à partir de sous-titres d'images et affine le modèle de sous-titres vidéo de bout en bout pour obtenir des sous-titres plus denses. Cette approche génère des légendes courtes à l'aide du modèle Panda70M, des légendes d'images denses à l'aide du modèle CogView3, puis résume à l'aide du modèle GPT-4 pour générer la courte vidéo finale. Zhipu AI a également affiné un modèle CogVLM2-Caption basé sur CogVLM2-Video et Llama 3, formé à l'aide de données de sous-titres denses pour accélérer le processus de génération de sous-titres vidéo.
Afin d'évaluer la qualité de la génération texte-vidéo, Zhipu AI utilise plusieurs indicateurs dans VBench, tels que les actions humaines, les scènes, la dynamique, etc. Zhipu AI utilise également deux outils d'évaluation vidéo supplémentaires : Dynamic Quality dans Devil et GPT4o-MT Score dans Chrono-Magic, qui se concentrent sur les caractéristiques dynamiques des vidéos. Comme le montre le tableau ci-dessous. Zhipu AI a vérifié l'efficacité de la loi de mise à l'échelle dans la génération vidéo. À l'avenir, elle continuera à augmenter l'échelle des données et l'échelle du modèle tout en explorant de nouvelles architectures de modèles avec des innovations plus révolutionnaires et une compression plus efficace des informations vidéo. , un mélange plus complet de contenu texte et vidéo. Enfin, jetons un coup d'œil à l'effet de « Clear Shadow ». Conseils : "Un bateau jouet en bois délicat avec des mâts et des voiles magnifiquement sculptés glisse doucement sur un tapis bleu moelleux qui imite les vagues de l'océan. La coque est peinte d'un brun riche et possède de petites fenêtres. Le tapis est doux et texturé, offrant la toile de fond parfaite pour ressembler au vaste océan. Il y a également divers jouets et objets pour enfants autour du bateau, suggérant un environnement ludique. Cette scène capture l'innocence et l'imagination de l'enfance avec ses bateaux jouets. Le voyage symbolise une aventure sans fin dans un intérieur fantaisiste. environnement. "Conseils : "La caméra suit un vieux SUV blanc avec une galerie de toit noire alors qu'il accélère sur une colline raide et le long d'un chemin de terre entouré de pins, les pneus soulevaient la poussière et le soleil brillait. Le SUV roulait à toute vitesse sur le chemin de terre, projetant une lumière chaude sur la scène. Le chemin de terre s'incurvait lentement au loin, et il n'y avait aucune autre voiture ou véhicule en vue. Les arbres des deux côtés de la route étaient des séquoias. de verdure. Vue de l'arrière, la voiture suit les courbes avec aisance, donnant l'impression qu'elle roule sur un terrain accidenté, entouré de collines escarpées et de montagnes, avec un ciel bleu clair au-dessus. "Conseils : " Un paysage forestier enneigé traversé par un chemin de terre. La route est bordée d'arbres enneigés et le sol est également couvert de neige, créant une atmosphère lumineuse et paisible. des personnes ou des animaux sont visibles dans la vidéo. Le style de la vidéo est une photo de paysage naturel, mettant l'accent sur la beauté de la forêt enneigée et la tranquillité de la route "Conseils : " Brochettes de poulet et poivrons verts Fermer-. plan de grill sur grill avec légère brûlure et légère fumée. "Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!