


Mise à niveau open source complète d'Open-Sora : prend en charge la génération vidéo 16 s et la résolution 720p
Open-Sora a été discrètement mis à jour dans la communauté open source. Il prend désormais en charge la génération de vidéos jusqu'à 16 secondes, avec des résolutions allant jusqu'à 720p, et peut gérer n'importe quel rapport hauteur/largeur de texte à image, texte à vidéo, image à vidéo. , Vidéo vers vidéo et besoins de génération vidéo de longueur infinie. Essayons-le.
Générez une scène de neige de Noël sur écran horizontal, publiez-la sur le site B
puis créez un écran vertical, tweetez
et générez également une vidéo de 16 secondes, maintenant tout le monde Comment jouer si vous êtes accro à l'écriture de scénarios ? Conseils
GitHub : https://github.com/hpcaitech/Open-Sora
Ce qui est encore plus cool, c'est qu'Open-Sora est toujours entièrement open source, y comprisla dernière architecture de modèle, les derniers poids de modèle, et plus encore Le processus de formation temps/résolution/rapport hauteur/largeur/fréquence d'images, le processus complet de collecte et de prétraitement des données, tous les détails de la formation, des exemples de démonstration
et untutoriel détaillé de démarrage. Interprétation complète du rapport technique d'Open-Sora
Aperçu des dernières fonctionnalités
L'équipe d'auteur a officiellement publié le rapport technique d'Open-Sora [1] sur GitHub selon la compréhension de l'auteur. , cette mise à jour comprend principalement les fonctionnalités clés suivantes :
Prend en charge la génération de vidéos longues ;
- Résolution de génération vidéo jusqu'à 720p
- Un seul modèle prend en charge le texte dans n'importe quel rapport d'aspect, différentes résolutions et durées. Besoins en matière de génération d'images, de texte en vidéo, d'image en vidéo, de vidéo en vidéo et de longueur infinie ;
- Propose une conception d'architecture de modèle plus stable qui prend en charge l'entraînement multi-temps/résolution/rapport d'aspect/fréquence d'images ;
- Le dernier processus de traitement automatique des données est open source.
- Modèle de diffusion spatio-temporelle ST-DiT-2
L'équipe d'auteurs a déclaré avoir apporté des améliorations clés à l'architecture STDiT dans Open-Sora 1.0, dans le but d'améliorer la stabilité de l'entraînement et les performances globales. du modèle. Pour la tâche actuelle de prédiction de séquence, l’équipe a adopté les meilleures pratiques des grands modèles de langage (LLM) et a remplacé le codage positionnel sinusoïdal dans l’attention temporelle par le codage positionnel rotationnel plus efficace (intégration RoPE). De plus, afin d'améliorer la stabilité de la formation, ils se sont référés à l'architecture du modèle SD3 et ont introduit en outre la technologie de normalisation QK pour améliorer la stabilité de la formation de demi-précision. Afin de prendre en charge les exigences de formation de plusieurs résolutions, différents formats d'image et fréquences d'images, l'architecture ST-DiT-2 proposée par l'équipe de l'auteur peut automatiquement mettre à l'échelle le codage de position et gérer des entrées de différentes tailles.
Entraînement en plusieurs étapes
Selon le rapport technique d'Open-Sora, Open-Sora adopte une méthode d'entraînement en plusieurs étapes, et chaque étape continuera l'entraînement en fonction du poids de l'étape précédente. Par rapport à la formation en une seule étape, cette formation en plusieurs étapes atteint plus efficacement l'objectif de génération vidéo de haute qualité en introduisant les données étape par étape.
Dans la phase initiale, la plupart des vidéos utilisent une résolution de 144p et sont mélangées avec des images et des vidéos de 240p et 480p pour la formation. La formation dure environ 1 semaine, avec une taille totale de pas de 81k. Dans la deuxième étape, la résolution de la plupart des données vidéo est augmentée à 240p et 480p, la durée d'entraînement est de 1 jour et la taille du pas atteint 22k. La troisième étape a été encore améliorée à 480p et 720p, la durée de l'entraînement était de 1 jour et l'entraînement de 4 000 pas a été terminé. L'ensemble du processus de formation en plusieurs étapes a été achevé en 9 jours environ. Par rapport à Open-Sora1.0, la qualité de la génération vidéo a été améliorée dans plusieurs dimensions.
Cadre unifié image-vidéo/vidéo-vidéo
L'équipe d'auteurs a déclaré que, sur la base des caractéristiques de Transformer, l'architecture DiT peut être facilement étendue pour prendre en charge l'image à l'image et tâches vidéo à vidéo. Ils ont proposé une stratégie de masquage pour prendre en charge le traitement conditionnel des images et des vidéos. En définissant différents masques, diverses tâches de génération peuvent être prises en charge, notamment : vidéo graphique, vidéo en boucle, extension vidéo, génération vidéo autorégressive, connexion vidéo, montage vidéo, insertion de trames, etc.
Soutien à la stratégie de masquage pour le traitement conditionnel d'images et de vidéos
L'équipe d'auteurs a déclaré qu'en s'inspirant de la méthode UL2[2], ils ont introduit une stratégie de masquage aléatoire dans la phase de formation du modèle. Plus précisément, les trames masquées sont sélectionnées et démasquées de manière aléatoire pendant le processus d'apprentissage, y compris, mais sans s'y limiter, le démasquage de la première trame, des k premières trames, des k trames suivantes, des k trames éventuelles, etc. Les auteurs nous ont également révélé que, sur la base d'expériences avec Open-Sora 1.0, en appliquant la stratégie de masquage avec une probabilité de 50 %, le modèle peut mieux apprendre à gérer le conditionnement d'images avec seulement un petit nombre d'étapes. Dans la dernière version d'Open-Sora, ils ont adopté une méthode de pré-entraînement à partir de zéro utilisant une stratégie de masquage.
De plus, l'équipe d'auteurs fournit également un guide détaillé pour la configuration de la stratégie de masquage pour l'étape d'inférence. La forme tuple de cinq nombres offre une grande flexibilité et un grand contrôle lors de la définition de la stratégie de masquage.
Instructions de configuration de la politique de masque
Prend en charge l'entraînement multi-temps/résolution/rapport d'aspect/fréquence d'images
Le rapport technique d'OpenAI Sora [3] a souligné que l'utilisation de la formation vidéo originale avec la résolution, le rapport hauteur/largeur et la longueur peuvent augmenter la flexibilité de l’échantillonnage et améliorer le cadrage et la composition. À cet égard, l’équipe des auteurs a proposé une stratégie de regroupement.
Comment le mettre en œuvre concrètement ? Grâce à une lecture approfondie du rapport technique publié par l'auteur, nous avons appris que ce qu'on appelle le bucket est un triplet de (résolution, nombre d'images, rapport hauteur/largeur). L'équipe a prédéfini une gamme de formats d'image pour les vidéos à différentes résolutions afin de couvrir les types de formats vidéo les plus courants. Avant le début de chaque époque du cycle de formation, ils remanient l'ensemble de données et attribuent les échantillons aux compartiments correspondants en fonction de leurs caractéristiques. Plus précisément, ils placent chaque échantillon dans un compartiment dont la résolution et la longueur d'image sont inférieures ou égales à cette fonctionnalité vidéo.
Stratégie de bucketing Open-Sora
L'équipe d'auteur a en outre révélé que afin de réduire les besoins en ressources informatiques, ils ont introduit deux attributs (résolution, nombre d'images) pour chaque keep_prob et batch_size afin de réduire Calculez les coûts et mettez en œuvre une formation en plusieurs étapes. De cette façon, ils peuvent contrôler le nombre d'échantillons dans différents compartiments et équilibrer la charge du GPU en recherchant une bonne taille de lot pour chaque compartiment. L'auteur développe cela dans le rapport technique. Les amis intéressés peuvent lire le rapport technique publié par l'auteur sur GitHub pour obtenir plus d'informations : https://github.com/hpcaitech/Open-Sora
Collecte de données et pré-analyse. -processus de traitement
L'équipe d'auteurs fournit même des conseils détaillés sur la collecte et le traitement des données. Selon l'explication de l'auteur dans le rapport technique, au cours du processus de développement d'Open-Sora 1.0, ils ont réalisé que la quantité et la qualité des données sont extrêmement critiques pour cultiver un modèle performant, ils se sont donc consacrés à l'expansion et à l'optimisation des données. ensemble. Ils ont établi un processus de traitement automatisé des données qui suit le principe de décomposition en valeurs singulières (SVD) et couvre la segmentation des scènes, le traitement des sous-titres, la notation et le filtrage de la diversité, ainsi que le système de gestion et la spécification de l'ensemble de données. De même, ils partagent de manière désintéressée des scripts liés au traitement des données avec la communauté open source. Les développeurs intéressés peuvent désormais utiliser ces ressources, combinées à des rapports techniques et du code, pour traiter et optimiser efficacement leurs propres ensembles de données.
Processus de traitement des données Open-Sora
Évaluation complète des performances d'Open-Sora
Affichage des effets de génération vidéo
Le point culminant le plus accrocheur d'Open-Sora est que il Il peut capturer et transformer la scène dans votre esprit en une vidéo animée grâce à une description textuelle. Les images et les imaginations qui vous traversent l’esprit peuvent désormais être enregistrées de manière permanente et partagées avec d’autres. Ici, l’auteur a essayé plusieurs invites différentes comme point de départ.
Par exemple, l'auteur a essayé de générer une vidéo de visite d'une forêt en hiver. Peu de temps après que la neige soit tombée, les pins étaient recouverts de neige blanche. Des aiguilles de pin sombres et des flocons de neige blancs étaient dispersés en couches claires.
Ou, par une nuit calme, vous êtes dans une forêt sombre comme celle décrite dans d'innombrables contes de fées, avec le lac profond scintille sous les étoiles brillantes partout dans le ciel.
La vue nocturne de l'île animée depuis les airs est encore plus belle. Les lumières jaunes chaudes et l'eau bleue en forme de ruban attirent les gens dans le temps tranquille des vacances.
Le trafic intense de la ville, les immeubles de grande hauteur et les magasins de rue encore allumés tard dans la nuit ont une saveur différente.
En plus des décors, Open-Sora peut également restaurer diverses créatures naturelles. Qu'il s'agisse d'une fleur rouge vif,
ou d'un caméléon tournant lentement la tête, Open-Sora peut générer des vidéos plus réalistes.
L'auteur a également essayé une variété de tests rapides et a fourni de nombreuses vidéos générées pour votre référence, y compris différents contenus, différentes résolutions, différents formats d'image et différentes durées. L'auteur a également découvert qu'avec une seule commande simple, Open-Sora peut générer des clips vidéo multi-résolution, brisant complètement les limites de la créativité.
Résolution : 16*240p
Résolution : 64*360p
Résolution : 480 *854p
Nous pouvons également alimenter Open-Sora avec une image statique pour générer une courte vidéo
Open-Sora peut également connecter intelligemment deux images statiques. Appuyez sur la vidéo ci-dessous pour vous faire découvrir la lumière et l'ombre changeantes de l'après-midi au crépuscule. Chaque image est un poème du temps.
Pour un autre exemple, si nous voulons éditer la vidéo originale, avec juste une simple commande, la forêt initialement lumineuse a inauguré de fortes chutes de neige.
Nous pouvons également utiliser Open-Sora pour générer des images haute définition
C'est à noter que les poids du modèle Open-Sora sont déjà entièrement gratuit Il est public sur leur communauté open source, vous pouvez donc aussi bien le télécharger et l'essayer. Puisqu'ils prennent également en charge la fonction de collage vidéo, cela signifie que vous avez la possibilité de créer gratuitement une nouvelle avec une histoire pour concrétiser votre créativité.
Adresse de téléchargement du poids : https://github.com/hpcaitech/Open-Sora
Limites actuelles et projets futurs
Bien que de bons résultats aient été obtenus dans la reproduction de modèles vidéo Vincent de type Sora, les progrès ont été réalisé, mais l'équipe d'auteur souligne également humblement que les vidéos actuellement générées doivent encore être améliorées sur de nombreux aspects : notamment les problèmes de bruit pendant le processus de génération, le manque de cohérence temporelle, la mauvaise qualité de génération des personnages et les faibles scores esthétiques. Concernant ces défis, l'équipe d'auteurs a déclaré qu'elle donnerait la priorité à leur résolution lors du développement de la prochaine version afin d'atteindre des normes de génération vidéo plus élevées. Les amis intéressés souhaiteront peut-être continuer à y prêter attention. Nous attendons avec impatience la prochaine surprise que la communauté Open-Sora nous apportera.
Adresse Open source : https://github.com/hpcaitech/Open-Sora
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds



Investissement en niveaux de gris: le canal des investisseurs institutionnels pour entrer sur le marché des crypto-monnaies. La société a lancé plusieurs fiducies cryptographiques, ce qui a attiré une attention généralisée, mais l'impact de ces fonds sur les prix des jetons varie considérablement. Cet article présentera en détail certains des principaux fonds de fiducie de crypto de Graycale. Grayscale Major Crypto Trust Funds disponibles dans un investissement GrayScale GRAYS (fondée par DigitalCurrencyGroup en 2013) gère une variété de fonds fiduciaires d'actifs cryptographiques, fournissant des investisseurs institutionnels et des particuliers élevés avec des canaux d'investissement conformes. Ses principaux fonds comprennent: ZCash (Zec), Sol,

ElizaOSV2: L'autonomisation de l'IA et de la direction de la nouvelle économie de WEB3. Cet article plongera dans les principales innovations d'ElizaOSV2 et comment elle façonne une économie future axée sur l'IA. Automatisation de l'IA: Aller exploiter indépendamment Elizaos était à l'origine un cadre d'IA axé sur l'automatisation Web3. La version V1 permet à l'IA d'interagir avec les contrats intelligents et les données de la blockchain, tandis que la version V2 atteint des améliorations de performances significatives. Au lieu d'exécuter simplement des instructions simples, l'IA peut gérer indépendamment les workflows, exploiter des affaires et développer des stratégies financières. Mise à niveau de l'architecture: amélioré un

L'entrée des principaux acteurs du marché Castle Securities dans Bitcoin Market Maker est un symbole de la maturité du marché Bitcoin et une étape clé pour les forces financières traditionnelles pour concurrencer le pouvoir de tarification des actifs. Le 25 février, selon Bloomberg, Citadel Securities cherche à devenir un fournisseur de liquidité pour les crypto-monnaies. La société vise à rejoindre la liste des fabricants de marché sur divers échanges, y compris les échanges exploités par CoinbaseGlobal, Binanceholdings et Crypto.com, ont déclaré des personnes familières avec l'affaire. Une fois approuvé par l'échange, la société prévoyait initialement de créer une équipe de fabricants de marchés en dehors des États-Unis. Ce mouvement n'est pas seulement un signe

Observation hebdomadaire: les entreprises thésaurisation du Bitcoin - un changement de brassage que je souligne souvent certaines tendances du marché négligées dans des mémos hebdomadaires. Le mouvement de Microstrategy est un exemple brutal. Beaucoup de gens peuvent dire: "Microstrategy et Michaelsaylor sont déjà bien connus, à quoi allez-vous faire attention?" Cette vue est unilatérale. Des recherches approfondies sur l'adoption du bitcoin en tant qu'actif de réserve au cours des derniers mois montrent qu'il ne s'agit pas d'un cas isolé, mais d'une tendance majeure qui émerge. Je prédis qu'au cours des 12 à 18 prochains mois, des centaines d'entreprises suivront le pas et achèteront de grandes quantités de Bitcoin

Des chercheurs de l'Université de Shanghai Jiaotong, de Shanghai Ailab et de l'Université chinoise de Hong Kong ont lancé le projet open source Visual-RFT (visual d'amélioration), qui ne nécessite qu'une petite quantité de données pour améliorer considérablement les performances du gros modèle de langage visuel (LVLM). Visual-RFT combine intelligemment l'approche d'apprentissage en renforcement basée sur les règles de Deepseek-R1 avec le paradigme de relâchement de renforcement d'OpenAI (RFT), prolongeant avec succès cette approche du champ de texte au champ visuel. En concevant les récompenses de règles correspondantes pour des tâches telles que la sous-catégorisation visuelle et la détection d'objets, Visual-RFT surmonte les limites de la méthode Deepseek-R1 limitée au texte, au raisonnement mathématique et à d'autres domaines, fournissant une nouvelle façon de formation LVLM. Vis

La bibliothèque utilisée pour le fonctionnement du numéro de point flottante dans le langage go présente comment s'assurer que la précision est ...

Dans l'hiver froid de 2018, j'ai inspecté la centrale photovoltaïque dans le gobi à Qinghai. Les tableaux de panneaux photovoltaïques qui étaient à l'époque. Le marché de la cryptographie subit le même cycle que les industries traditionnelles. Tout comme le match à élimination directe de l'industrie photovoltaïque de 2012 à 2016, le marché de la CEX Altcoin est entré dans un stade de liquidation cruel: le volume de trading quotidien de nombreux projets vedettes en 2021 est tombé en dessous de 10 millions de dollars américains, et la valeur de marché médiane a diminué de plus de 70% par rapport à son apogée. C'est comme la trajectoire des géants photovoltaïques, Internet et du charbon tombant des stocks à prix élevé aux stocks à bas prix. Mais derrière la cruauté cyclique,

Binance LaunchPool Analyse approfondie: guide d'extraction à haut rendement et explication détaillée des projets bio. En tant que plus grand échange de crypto-monnaie au monde, Binance a sélectionné des projets de haute qualité avec LaunchPool, offrant aux investisseurs des mines et des opportunités faciles d'obtenir de nouveaux jetons. Qu'est-ce que Binance Launchpool? Binance LaunchPool est une plate-forme qui gagne gratuitement de nouveaux jetons en promettant une monnaie spécifiée. Ceci est similaire aux nouveaux abonnements en actions en bourse, mais il y a moins de participants, une concurrence inférieure et de petits investissements peuvent également obtenir des rendements élevés.
