Maison Périphériques technologiques IA La version open source de Sora est un succès : 4K Star est disponible, 4090 fonctionne sur une seule carte et A6000 peut être réglé avec précision

La version open source de Sora est un succès : 4K Star est disponible, 4090 fonctionne sur une seule carte et A6000 peut être réglé avec précision

Aug 07, 2024 pm 06:05 PM
产业 Spectre de sagesse ai

Zhipu AI a open source le grand modèle qu'il a développé en interne.


Le domaine de la génération vidéo domestique devient de plus en plus populaire. Tout à l'heure, Zhipu AI a annoncé qu'il ouvrirait la source CogVideoX, un modèle de génération vidéo avec la même origine que "Qingying". Gagnez 4 000 étoiles en quelques heures seulement.

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

  • Référentiel de codes : https://github.com/THUDM/CogVideo
  • Téléchargement du modèle : https://huggingface.co/THUDM/CogVideoX-2b
  • Rapport technique : https : //github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

Le 26 juillet, Zhipu AI a officiellement lancé le produit de génération vidéo "Qingying", qui a été largement salué par tout le monde. . Tant que vous avez une bonne idée (quelques mots à quelques centaines de mots) et un peu de patience (30 secondes), « Qingying » peut générer une vidéo de haute précision avec une résolution de 1440 x 960.

Il est officiellement annoncé qu'à partir de maintenant, Qingying lancera l'application Qingyan, et tous les utilisateurs pourront en faire l'expérience de manière complète. Les amis qui veulent l'essayer peuvent se rendre sur « Zhipu Qingyan » pour découvrir la capacité de « Qingying » à générer des vidéos.

L'émergence de "Qingying" est saluée comme le premier Sora accessible à tous en Chine. Six jours après sa sortie, le nombre de vidéos générées par « Qingying » dépassait le million.

  • Lien d'accès PC : https://chatglm.cn/
  • Lien d'accès mobile : https://chatglm.cn/download?fr=web_home

Pourquoi le Le modèle open source Zhipu AI est-il si populaire ? Vous devez savoir que bien que la technologie de génération vidéo mûrisse progressivement, il n'existe toujours pas de modèle de génération vidéo open source capable de répondre aux exigences des applications de niveau commercial. Les familiers Sora, Gen-3, etc. sont tous de source fermée. L'open source de CogVideoX est comme l'open source OpenAI du modèle derrière Sora, qui revêt une grande importance pour la majorité des chercheurs.
Le modèle open source CogVideoX comprend plusieurs modèles de différentes tailles. Actuellement, le CogVideoX-2B open source de Zhipu AI ne nécessite que 18 Go de mémoire vidéo pour l'inférence avec une précision FP-16 et seulement 40 Go de mémoire vidéo pour le réglage fin. qu'une seule carte graphique A 4090 peut effectuer une inférence, tandis qu'une seule carte graphique A6000 peut effectuer un réglage fin.
La limite de mots d'invite de CogVideoX-2B est de 226 jetons, la durée de la vidéo est de 6 secondes, la fréquence d'images est de 8 images/seconde et la résolution vidéo est de 720*480. Zhipu AI a réservé un vaste espace pour l'amélioration de la qualité vidéo, et nous attendons avec impatience les contributions open source des développeurs pour optimiser les mots, la durée de la vidéo, la fréquence d'images, la résolution, le réglage fin de la scène et le développement de diverses fonctions autour de la vidéo. .
Des modèles avec des performances plus élevées et des paramètres plus larges sont en route, alors restez à l'écoute et attendez-les avec impatience. Les données vidéo contiennent des informations spatiales et temporelles, de sorte que leur volume de données et leur charge de calcul dépassent de loin ceux des données d'image. Pour relever ce défi, Zhipu a proposé une méthode de compression vidéo basée sur un auto-encodeur variationnel 3D (3D VAE). La VAE 3D compresse simultanément les dimensions spatiales et temporelles de la vidéo grâce à une convolution tridimensionnelle, permettant d'obtenir des taux de compression plus élevés et une meilleure qualité de reconstruction.

La structure du modèle comprend un encodeur, un décodeur et un régularisateur d'espace latent, et la compression est obtenue grâce à quatre étapes de sous-échantillonnage et de suréchantillonnage. La convolution causale temporelle garantit la causalité des informations et réduit les frais généraux de communication. Zhipu utilise la technologie de parallélisme contextuel pour s'adapter au traitement vidéo à grande échelle.

Dans l'expérience, Zhipu AI a découvert que l'encodage à grande résolution est facile à généraliser, mais qu'augmenter le nombre d'images est plus difficile. Par conséquent, Zhipu entraîne le modèle en deux étapes : d'abord un entraînement sur des fréquences d'images inférieures et des mini-lots, puis un réglage fin sur des fréquences d'images plus élevées grâce au parallélisme contextuel. La fonction de perte d'entraînement combine la perte L2, la perte de perception LPIPS et la perte GAN pour le discriminateur 3D.
Expert Transformer

Wisdom Spectrum AI utilise l'encodeur de VAE pour compresser la vidéo dans un espace latent, puis divise l'espace latent en morceaux et l'étend en intégrations de longues séquences z_vision. Dans le même temps, Zhipu AI utilise T5 pour encoder la saisie de texte dans du texte incorporant z_text, puis fusionner z_text et z_vision le long de la dimension de la séquence. Les intégrations épissées sont introduites dans une pile de blocs Transformer experts pour le traitement. Enfin, les intégrations sont recousues pour récupérer la forme originale de l'espace latent et décodées à l'aide de VAE pour reconstruire la vidéo.

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

Data

La formation du modèle de génération vidéo nécessite le criblage de données vidéo de haute qualité pour apprendre la dynamique du monde réel. La vidéo peut être inexacte en raison de problèmes de montage ou de tournage humains. Wisdom AI a développé des balises négatives pour identifier et exclure les vidéos de mauvaise qualité telles que les vidéos suréditées, saccadées, de mauvaise qualité, de style cours magistral, dominées par le texte et le bruit d'écran. Grâce à des filtres entraînés par vidéo-llama, Zhipu AI a annoté et filtré 20 000 points de données vidéo. Dans le même temps, le flux optique et les scores esthétiques sont calculés, et le seuil est ajusté dynamiquement pour garantir la qualité de la vidéo générée.
Les données vidéo n'ont généralement pas de descriptions textuelles et doivent être converties en descriptions textuelles pour la formation du modèle texte-vidéo. Les ensembles de données de sous-titres vidéo existants comportent des sous-titres courts et ne peuvent pas décrire entièrement le contenu vidéo. Zhipu AI propose un pipeline pour générer des sous-titres vidéo à partir de sous-titres d'images et affine le modèle de sous-titres vidéo de bout en bout pour obtenir des sous-titres plus denses. Cette approche génère des légendes courtes à l'aide du modèle Panda70M, des légendes d'images denses à l'aide du modèle CogView3, puis résume à l'aide du modèle GPT-4 pour générer la courte vidéo finale. Zhipu AI a également affiné un modèle CogVLM2-Caption basé sur CogVLM2-Video et Llama 3, formé à l'aide de données de sous-titres denses pour accélérer le processus de génération de sous-titres vidéo.

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

Performance

Afin d'évaluer la qualité de la génération texte-vidéo, Zhipu AI utilise plusieurs indicateurs dans VBench, tels que les actions humaines, les scènes, la dynamique, etc. Zhipu AI utilise également deux outils d'évaluation vidéo supplémentaires : Dynamic Quality dans Devil et GPT4o-MT Score dans Chrono-Magic, qui se concentrent sur les caractéristiques dynamiques des vidéos. Comme le montre le tableau ci-dessous.
智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调
Zhipu AI a vérifié l'efficacité de la loi de mise à l'échelle dans la génération vidéo. À l'avenir, elle continuera à augmenter l'échelle des données et l'échelle du modèle tout en explorant de nouvelles architectures de modèles avec des innovations plus révolutionnaires et une compression plus efficace des informations vidéo. , un mélange plus complet de contenu texte et vidéo.

Enfin, jetons un coup d'œil à l'effet de « Clear Shadow ».

Conseils : "Un bateau jouet en bois délicat avec des mâts et des voiles magnifiquement sculptés glisse doucement sur un tapis bleu moelleux qui imite les vagues de l'océan. La coque est peinte d'un brun riche et possède de petites fenêtres. Le tapis est doux et texturé, offrant la toile de fond parfaite pour ressembler au vaste océan. Il y a également divers jouets et objets pour enfants autour du bateau, suggérant un environnement ludique. Cette scène capture l'innocence et l'imagination de l'enfance avec ses bateaux jouets. Le voyage symbolise une aventure sans fin dans un intérieur fantaisiste. environnement. "智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调Conseils : "La caméra suit un vieux SUV blanc avec une galerie de toit noire alors qu'il accélère sur une colline raide et le long d'un chemin de terre entouré de pins, les pneus soulevaient la poussière et le soleil brillait. Le SUV roulait à toute vitesse sur le chemin de terre, projetant une lumière chaude sur la scène. Le chemin de terre s'incurvait lentement au loin, et il n'y avait aucune autre voiture ou véhicule en vue. Les arbres des deux côtés de la route étaient des séquoias. de verdure. Vue de l'arrière, la voiture suit les courbes avec aisance, donnant l'impression qu'elle roule sur un terrain accidenté, entouré de collines escarpées et de montagnes, avec un ciel bleu clair au-dessus. "智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调Conseils : " Un paysage forestier enneigé traversé par un chemin de terre. La route est bordée d'arbres enneigés et le sol est également couvert de neige, créant une atmosphère lumineuse et paisible. des personnes ou des animaux sont visibles dans la vidéo. Le style de la vidéo est une photo de paysage naturel, mettant l'accent sur la beauté de la forêt enneigée et la tranquillité de la route "智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调Conseils : " Brochettes de poulet et poivrons verts Fermer-. plan de grill sur grill avec légère brûlure et légère fumée. "智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Grow A Garden - Guide de mutation complet
3 Il y a quelques semaines By DDD
<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Système de fusion, expliqué
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1670
14
Tutoriel PHP
1274
29
Tutoriel C#
1256
24
Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Aug 09, 2024 pm 04:01 PM

Mais peut-être qu’il ne pourra pas vaincre le vieil homme dans le parc ? Les Jeux Olympiques de Paris battent leur plein et le tennis de table suscite beaucoup d'intérêt. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table. DeepMind vient tout juste de proposer le premier agent robot apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition. Adresse papier : https://arxiv.org/pdf/2408.03906 Quelle est la capacité du robot DeepMind à jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains : tant en coup droit qu'en revers : l'adversaire utilise une variété de styles de jeu, et le robot peut également résister : recevoir des services avec des tours différents : Cependant, l'intensité du jeu ne semble pas aussi intense que le vieil homme dans le parc. Pour les robots, le tennis de table

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison Aug 21, 2024 pm 07:33 PM

Le 21 août, la Conférence mondiale sur les robots 2024 s'est tenue en grande pompe à Pékin. La marque de robots domestiques de SenseTime, "Yuanluobot SenseRobot", a dévoilé toute sa famille de produits et a récemment lancé le robot de jeu d'échecs Yuanluobot AI - Chess Professional Edition (ci-après dénommé "Yuanluobot SenseRobot"), devenant ainsi le premier robot d'échecs au monde pour le maison. En tant que troisième produit robot jouant aux échecs de Yuanluobo, le nouveau robot Guoxiang a subi un grand nombre de mises à niveau techniques spéciales et d'innovations en matière d'IA et de machines d'ingénierie. Pour la première fois, il a réalisé la capacité de ramasser des pièces d'échecs en trois dimensions. grâce à des griffes mécaniques sur un robot domestique et effectuer des fonctions homme-machine telles que jouer aux échecs, tout le monde joue aux échecs, réviser la notation, etc.

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Sep 02, 2024 pm 01:56 PM

La rentrée scolaire est sur le point de commencer, et ce ne sont pas seulement les étudiants qui sont sur le point de commencer le nouveau semestre qui doivent prendre soin d’eux-mêmes, mais aussi les grands modèles d’IA. Il y a quelque temps, Reddit était rempli d'internautes se plaignant de la paresse de Claude. « Son niveau a beaucoup baissé, il fait souvent des pauses et même la sortie devient très courte. Au cours de la première semaine de sortie, il pouvait traduire un document complet de 4 pages à la fois, mais maintenant il ne peut même plus produire une demi-page. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dans un post intitulé "Totalement déçu par Claude", plein de

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Aug 22, 2024 pm 10:35 PM

Lors de la World Robot Conference qui se tient à Pékin, l'exposition de robots humanoïdes est devenue le centre absolu de la scène. Sur le stand Stardust Intelligent, l'assistant robot IA S1 a réalisé trois performances majeures de dulcimer, d'arts martiaux et de calligraphie. un espace d'exposition, capable à la fois d'arts littéraires et martiaux, a attiré un grand nombre de publics professionnels et de médias. Le jeu élégant sur les cordes élastiques permet au S1 de démontrer un fonctionnement fin et un contrôle absolu avec vitesse, force et précision. CCTV News a réalisé un reportage spécial sur l'apprentissage par imitation et le contrôle intelligent derrière "Calligraphy". Le fondateur de la société, Lai Jie, a expliqué que derrière les mouvements soyeux, le côté matériel recherche le meilleur contrôle de la force et les indicateurs corporels les plus humains (vitesse, charge). etc.), mais du côté de l'IA, les données réelles de mouvement des personnes sont collectées, permettant au robot de devenir plus fort lorsqu'il rencontre une situation forte et d'apprendre à évoluer rapidement. Et agile

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Les contributeurs ont beaucoup gagné de cette conférence ACL. L'ACL2024, d'une durée de six jours, se tient à Bangkok, en Thaïlande. ACL est la plus grande conférence internationale dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. L'ACL s'est toujours classée première en termes d'influence académique dans le domaine de la PNL, et c'est également une conférence recommandée par le CCF-A. La conférence ACL de cette année est la 62e et a reçu plus de 400 travaux de pointe dans le domaine de la PNL. Hier après-midi, la conférence a annoncé le meilleur article et d'autres récompenses. Cette fois, il y a 7 Best Paper Awards (deux inédits), 1 Best Theme Paper Award et 35 Outstanding Paper Awards. La conférence a également décerné 3 Resource Paper Awards (ResourceAward) et Social Impact Award (

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o Sep 03, 2024 pm 05:18 PM

Intégration profonde de la vision et de l'apprentissage des robots. Lorsque deux mains de robot travaillent ensemble en douceur pour plier des vêtements, verser du thé et emballer des chaussures, associées au robot humanoïde 1X NEO qui a fait la une des journaux récemment, vous pouvez avoir le sentiment : nous semblons entrer dans l'ère des robots. En fait, ces mouvements soyeux sont le produit d’une technologie robotique avancée + d’une conception de cadre exquise + de grands modèles multimodaux. Nous savons que les robots utiles nécessitent souvent des interactions complexes et exquises avec l’environnement, et que l’environnement peut être représenté comme des contraintes dans les domaines spatial et temporel. Par exemple, si vous souhaitez qu'un robot verse du thé, le robot doit d'abord saisir la poignée de la théière et la maintenir verticalement sans renverser le thé, puis la déplacer doucement jusqu'à ce que l'embouchure de la théière soit alignée avec l'embouchure de la tasse. , puis inclinez la théière selon un certain angle. ce

Conférence sur l'intelligence artificielle distribuée Appel à communications DAI 2024 : Agent Day, Richard Sutton, le père de l'apprentissage par renforcement, sera présent ! Yan Shuicheng, Sergey Levine et les scientifiques de DeepMind prononceront des discours d'ouverture Conférence sur l'intelligence artificielle distribuée Appel à communications DAI 2024 : Agent Day, Richard Sutton, le père de l'apprentissage par renforcement, sera présent ! Yan Shuicheng, Sergey Levine et les scientifiques de DeepMind prononceront des discours d'ouverture Aug 22, 2024 pm 08:02 PM

Introduction à la conférence Avec le développement rapide de la science et de la technologie, l'intelligence artificielle est devenue une force importante dans la promotion du progrès social. À notre époque, nous avons la chance d’être témoins et de participer à l’innovation et à l’application de l’intelligence artificielle distribuée (DAI). L’intelligence artificielle distribuée est une branche importante du domaine de l’intelligence artificielle, qui a attiré de plus en plus d’attention ces dernières années. Les agents basés sur de grands modèles de langage (LLM) ont soudainement émergé. En combinant les puissantes capacités de compréhension du langage et de génération des grands modèles, ils ont montré un grand potentiel en matière d'interaction en langage naturel, de raisonnement par connaissances, de planification de tâches, etc. AIAgent reprend le grand modèle de langage et est devenu un sujet brûlant dans le cercle actuel de l'IA. Au

Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Aug 08, 2024 am 07:02 AM

Cet après-midi, Hongmeng Zhixing a officiellement accueilli de nouvelles marques et de nouvelles voitures. Le 6 août, Huawei a organisé la conférence de lancement de nouveaux produits Hongmeng Smart Xingxing S9 et Huawei, réunissant la berline phare intelligente panoramique Xiangjie S9, le nouveau M7Pro et Huawei novaFlip, MatePad Pro 12,2 pouces, le nouveau MatePad Air, Huawei Bisheng With de nombreux nouveaux produits intelligents tous scénarios, notamment la série d'imprimantes laser X1, FreeBuds6i, WATCHFIT3 et l'écran intelligent S5Pro, des voyages intelligents, du bureau intelligent aux vêtements intelligents, Huawei continue de construire un écosystème intelligent complet pour offrir aux consommateurs une expérience intelligente du Internet de tout. Hongmeng Zhixing : Autonomisation approfondie pour promouvoir la modernisation de l'industrie automobile intelligente Huawei s'associe à ses partenaires de l'industrie automobile chinoise pour fournir

See all articles