Mise à niveau open source complète d'Open-Sora : prend en charge la génération vidéo 16 s et la résolution 720p-IA-php.cn

Table des matières

Évaluation complète des performances d'Open-Sora

Limites actuelles et projets futurs

Maison

Périphériques technologiques

Mise à niveau open source complète d'Open-Sora : prend en charge la génération vidéo 16 s et la résolution 720p

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 25, 2024 pm 02:55 PM

git 抖音数据模型视频编辑

Open-Sora a été discrètement mis à jour dans la communauté open source. Il prend désormais en charge la génération de vidéos jusqu'à 16 secondes, avec des résolutions allant jusqu'à 720p, et peut gérer n'importe quel rapport hauteur/largeur de texte à image, texte à vidéo, image à vidéo. , Vidéo vers vidéo et besoins de génération vidéo de longueur infinie. Essayons-le.

Générez une scène de neige de Noël sur écran horizontal, publiez-la sur le site B

Mise à niveau open source complète dOpen-Sora : prend en charge la génération vidéo 16 s et la résolution 720p

puis créez un écran vertical, tweetez

Mise à niveau open source complète dOpen-Sora : prend en charge la génération vidéo 16 s et la résolution 720p

et générez également une vidéo de 16 secondes, maintenant tout le monde Comment jouer si vous êtes accro à l'écriture de scénarios ? Conseils

GitHub : https://github.com/hpcaitech/Open-Sora

Ce qui est encore plus cool, c'est qu'Open-Sora est toujours entièrement open source, y comprisla dernière architecture de modèle, les derniers poids de modèle, et plus encore Le processus de formation temps/résolution/rapport hauteur/largeur/fréquence d'images, le processus complet de collecte et de prétraitement des données, tous les détails de la formation, des exemples de démonstration

et un

tutoriel détaillé de démarrage. Interprétation complète du rapport technique d'Open-Sora

Aperçu des dernières fonctionnalités

L'équipe d'auteur a officiellement publié le rapport technique d'Open-Sora [1] sur GitHub selon la compréhension de l'auteur. , cette mise à jour comprend principalement les fonctionnalités clés suivantes :

Prend en charge la génération de vidéos longues ;

Résolution de génération vidéo jusqu'à 720p
Un seul modèle prend en charge le texte dans n'importe quel rapport d'aspect, différentes résolutions et durées. Besoins en matière de génération d'images, de texte en vidéo, d'image en vidéo, de vidéo en vidéo et de longueur infinie ;
Propose une conception d'architecture de modèle plus stable qui prend en charge l'entraînement multi-temps/résolution/rapport d'aspect/fréquence d'images ;
Le dernier processus de traitement automatique des données est open source.

L'équipe d'auteurs a déclaré avoir apporté des améliorations clés à l'architecture STDiT dans Open-Sora 1.0, dans le but d'améliorer la stabilité de l'entraînement et les performances globales. du modèle. Pour la tâche actuelle de prédiction de séquence, l’équipe a adopté les meilleures pratiques des grands modèles de langage (LLM) et a remplacé le codage positionnel sinusoïdal dans l’attention temporelle par le codage positionnel rotationnel plus efficace (intégration RoPE). De plus, afin d'améliorer la stabilité de la formation, ils se sont référés à l'architecture du modèle SD3 et ont introduit en outre la technologie de normalisation QK pour améliorer la stabilité de la formation de demi-précision. Afin de prendre en charge les exigences de formation de plusieurs résolutions, différents formats d'image et fréquences d'images, l'architecture ST-DiT-2 proposée par l'équipe de l'auteur peut automatiquement mettre à l'échelle le codage de position et gérer des entrées de différentes tailles.

Entraînement en plusieurs étapes

Selon le rapport technique d'Open-Sora, Open-Sora adopte une méthode d'entraînement en plusieurs étapes, et chaque étape continuera l'entraînement en fonction du poids de l'étape précédente. Par rapport à la formation en une seule étape, cette formation en plusieurs étapes atteint plus efficacement l'objectif de génération vidéo de haute qualité en introduisant les données étape par étape.

Dans la phase initiale, la plupart des vidéos utilisent une résolution de 144p et sont mélangées avec des images et des vidéos de 240p et 480p pour la formation. La formation dure environ 1 semaine, avec une taille totale de pas de 81k. Dans la deuxième étape, la résolution de la plupart des données vidéo est augmentée à 240p et 480p, la durée d'entraînement est de 1 jour et la taille du pas atteint 22k. La troisième étape a été encore améliorée à 480p et 720p, la durée de l'entraînement était de 1 jour et l'entraînement de 4 000 pas a été terminé. L'ensemble du processus de formation en plusieurs étapes a été achevé en 9 jours environ. Par rapport à Open-Sora1.0, la qualité de la génération vidéo a été améliorée dans plusieurs dimensions.

Cadre unifié image-vidéo/vidéo-vidéo

L'équipe d'auteurs a déclaré que, sur la base des caractéristiques de Transformer, l'architecture DiT peut être facilement étendue pour prendre en charge l'image à l'image et tâches vidéo à vidéo. Ils ont proposé une stratégie de masquage pour prendre en charge le traitement conditionnel des images et des vidéos. En définissant différents masques, diverses tâches de génération peuvent être prises en charge, notamment : vidéo graphique, vidéo en boucle, extension vidéo, génération vidéo autorégressive, connexion vidéo, montage vidéo, insertion de trames, etc.

Soutien à la stratégie de masquage pour le traitement conditionnel d'images et de vidéos Mise à niveau open source complète dOpen-Sora : prend en charge la génération vidéo 16 s et la résolution 720p

L'équipe d'auteurs a déclaré qu'en s'inspirant de la méthode UL2[2], ils ont introduit une stratégie de masquage aléatoire dans la phase de formation du modèle. Plus précisément, les trames masquées sont sélectionnées et démasquées de manière aléatoire pendant le processus d'apprentissage, y compris, mais sans s'y limiter, le démasquage de la première trame, des k premières trames, des k trames suivantes, des k trames éventuelles, etc. Les auteurs nous ont également révélé que, sur la base d'expériences avec Open-Sora 1.0, en appliquant la stratégie de masquage avec une probabilité de 50 %, le modèle peut mieux apprendre à gérer le conditionnement d'images avec seulement un petit nombre d'étapes. Dans la dernière version d'Open-Sora, ils ont adopté une méthode de pré-entraînement à partir de zéro utilisant une stratégie de masquage.

De plus, l'équipe d'auteurs fournit également un guide détaillé pour la configuration de la stratégie de masquage pour l'étape d'inférence. La forme tuple de cinq nombres offre une grande flexibilité et un grand contrôle lors de la définition de la stratégie de masquage.

Mise à niveau open source complète dOpen-Sora : prend en charge la génération vidéo 16 s et la résolution 720p

Instructions de configuration de la politique de masque

Prend en charge l'entraînement multi-temps/résolution/rapport d'aspect/fréquence d'images

Le rapport technique d'OpenAI Sora [3] a souligné que l'utilisation de la formation vidéo originale avec la résolution, le rapport hauteur/largeur et la longueur peuvent augmenter la flexibilité de l’échantillonnage et améliorer le cadrage et la composition. À cet égard, l’équipe des auteurs a proposé une stratégie de regroupement.

Comment le mettre en œuvre concrètement ? Grâce à une lecture approfondie du rapport technique publié par l'auteur, nous avons appris que ce qu'on appelle le bucket est un triplet de (résolution, nombre d'images, rapport hauteur/largeur). L'équipe a prédéfini une gamme de formats d'image pour les vidéos à différentes résolutions afin de couvrir les types de formats vidéo les plus courants. Avant le début de chaque époque du cycle de formation, ils remanient l'ensemble de données et attribuent les échantillons aux compartiments correspondants en fonction de leurs caractéristiques. Plus précisément, ils placent chaque échantillon dans un compartiment dont la résolution et la longueur d'image sont inférieures ou égales à cette fonctionnalité vidéo.

Mise à niveau open source complète dOpen-Sora : prend en charge la génération vidéo 16 s et la résolution 720p

Stratégie de bucketing Open-Sora

L'équipe d'auteur a en outre révélé que afin de réduire les besoins en ressources informatiques, ils ont introduit deux attributs (résolution, nombre d'images) pour chaque keep_prob et batch_size afin de réduire Calculez les coûts et mettez en œuvre une formation en plusieurs étapes. De cette façon, ils peuvent contrôler le nombre d'échantillons dans différents compartiments et équilibrer la charge du GPU en recherchant une bonne taille de lot pour chaque compartiment. L'auteur développe cela dans le rapport technique. Les amis intéressés peuvent lire le rapport technique publié par l'auteur sur GitHub pour obtenir plus d'informations : https://github.com/hpcaitech/Open-Sora

Collecte de données et pré-analyse. -processus de traitement

L'équipe d'auteurs fournit même des conseils détaillés sur la collecte et le traitement des données. Selon l'explication de l'auteur dans le rapport technique, au cours du processus de développement d'Open-Sora 1.0, ils ont réalisé que la quantité et la qualité des données sont extrêmement critiques pour cultiver un modèle performant, ils se sont donc consacrés à l'expansion et à l'optimisation des données. ensemble. Ils ont établi un processus de traitement automatisé des données qui suit le principe de décomposition en valeurs singulières (SVD) et couvre la segmentation des scènes, le traitement des sous-titres, la notation et le filtrage de la diversité, ainsi que le système de gestion et la spécification de l'ensemble de données. De même, ils partagent de manière désintéressée des scripts liés au traitement des données avec la communauté open source. Les développeurs intéressés peuvent désormais utiliser ces ressources, combinées à des rapports techniques et du code, pour traiter et optimiser efficacement leurs propres ensembles de données.

Mise à niveau open source complète dOpen-Sora : prend en charge la génération vidéo 16 s et la résolution 720p

Processus de traitement des données Open-Sora

Évaluation complète des performances d'Open-Sora

Affichage des effets de génération vidéo

Le point culminant le plus accrocheur d'Open-Sora est que il Il peut capturer et transformer la scène dans votre esprit en une vidéo animée grâce à une description textuelle. Les images et les imaginations qui vous traversent l’esprit peuvent désormais être enregistrées de manière permanente et partagées avec d’autres. Ici, l’auteur a essayé plusieurs invites différentes comme point de départ.

Par exemple, l'auteur a essayé de générer une vidéo de visite d'une forêt en hiver. Peu de temps après que la neige soit tombée, les pins étaient recouverts de neige blanche. Des aiguilles de pin sombres et des flocons de neige blancs étaient dispersés en couches claires.

Mise à niveau open source complète dOpen-Sora : prend en charge la génération vidéo 16 s et la résolution 720p

Ou, par une nuit calme, vous êtes dans une forêt sombre comme celle décrite dans d'innombrables contes de fées, avec le lac profond scintille sous les étoiles brillantes partout dans le ciel.

Mise à niveau open source complète dOpen-Sora : prend en charge la génération vidéo 16 s et la résolution 720p

La vue nocturne de l'île animée depuis les airs est encore plus belle. Les lumières jaunes chaudes et l'eau bleue en forme de ruban attirent les gens dans le temps tranquille des vacances.

Mise à niveau open source complète dOpen-Sora : prend en charge la génération vidéo 16 s et la résolution 720p

Le trafic intense de la ville, les immeubles de grande hauteur et les magasins de rue encore allumés tard dans la nuit ont une saveur différente.

Mise à niveau open source complète dOpen-Sora : prend en charge la génération vidéo 16 s et la résolution 720p

En plus des décors, Open-Sora peut également restaurer diverses créatures naturelles. Qu'il s'agisse d'une fleur rouge vif,

Mise à niveau open source complète dOpen-Sora : prend en charge la génération vidéo 16 s et la résolution 720p

ou d'un caméléon tournant lentement la tête, Open-Sora peut générer des vidéos plus réalistes.

Mise à niveau open source complète dOpen-Sora : prend en charge la génération vidéo 16 s et la résolution 720p

L'auteur a également essayé une variété de tests rapides et a fourni de nombreuses vidéos générées pour votre référence, y compris différents contenus, différentes résolutions, différents formats d'image et différentes durées. L'auteur a également découvert qu'avec une seule commande simple, Open-Sora peut générer des clips vidéo multi-résolution, brisant complètement les limites de la créativité.

Mise à niveau open source complète dOpen-Sora : prend en charge la génération vidéo 16 s et la résolution 720p

Mise à niveau open source complète dOpen-Sora : prend en charge la génération vidéo 16 s et la résolution 720p Résolution : 16*240p

Mise à niveau open source complète dOpen-Sora : prend en charge la génération vidéo 16 s et la résolution 720p

Résolution : 32*240p

Mise à niveau open source complète dOpen-Sora : prend en charge la génération vidéo 16 s et la résolution 720p

Résolution : 64*360p

Mise à niveau open source complète dOpen-Sora : prend en charge la génération vidéo 16 s et la résolution 720p

Résolution : 480 *854p

Nous pouvons également alimenter Open-Sora avec une image statique pour générer une courte vidéo Mise à niveau open source complète dOpen-Sora : prend en charge la génération vidéo 16 s et la résolution 720p

Mise à niveau open source complète dOpen-Sora : prend en charge la génération vidéo 16 s et la résolution 720p

Open-Sora peut également connecter intelligemment deux images statiques. Appuyez sur la vidéo ci-dessous pour vous faire découvrir la lumière et l'ombre changeantes de l'après-midi au crépuscule. Chaque image est un poème du temps.

Pour un autre exemple, si nous voulons éditer la vidéo originale, avec juste une simple commande, la forêt initialement lumineuse a inauguré de fortes chutes de neige.

Mise à niveau open source complète dOpen-Sora : prend en charge la génération vidéo 16 s et la résolution 720p

Nous pouvons également utiliser Open-Sora pour générer des images haute définition

Mise à niveau open source complète dOpen-Sora : prend en charge la génération vidéo 16 s et la résolution 720p

C'est à noter que les poids du modèle Open-Sora sont déjà entièrement gratuit Il est public sur leur communauté open source, vous pouvez donc aussi bien le télécharger et l'essayer. Puisqu'ils prennent également en charge la fonction de collage vidéo, cela signifie que vous avez la possibilité de créer gratuitement une nouvelle avec une histoire pour concrétiser votre créativité.

Adresse de téléchargement du poids : https://github.com/hpcaitech/Open-Sora

Limites actuelles et projets futurs

Bien que de bons résultats aient été obtenus dans la reproduction de modèles vidéo Vincent de type Sora, les progrès ont été réalisé, mais l'équipe d'auteur souligne également humblement que les vidéos actuellement générées doivent encore être améliorées sur de nombreux aspects : notamment les problèmes de bruit pendant le processus de génération, le manque de cohérence temporelle, la mauvaise qualité de génération des personnages et les faibles scores esthétiques. Concernant ces défis, l'équipe d'auteurs a déclaré qu'elle donnerait la priorité à leur résolution lors du développement de la prochaine version afin d'atteindre des normes de génération vidéo plus élevées. Les amis intéressés souhaiteront peut-être continuer à y prêter attention. Nous attendons avec impatience la prochaine surprise que la communauté Open-Sora nous apportera.

Adresse Open source : https://github.com/hpcaitech/Open-Sora

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7469

Tutoriel CakePHP

1376

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Quelles bibliothèques sont utilisées pour les opérations du numéro de point flottantes en Go? Apr 02, 2025 pm 02:06 PM

La bibliothèque utilisée pour le fonctionnement du numéro de point flottante dans le langage go présente comment s'assurer que la précision est ...

Gitee Pages STATIQUE Le déploiement du site Web a échoué: comment dépanner et résoudre les erreurs de fichier unique 404? Apr 04, 2025 pm 11:54 PM

GiteEpages STATIQUE Le déploiement du site Web a échoué: 404 Dépannage des erreurs et résolution lors de l'utilisation de Gitee ...

Comment exécuter le projet H5 Apr 06, 2025 pm 12:21 PM

L'exécution du projet H5 nécessite les étapes suivantes: Installation des outils nécessaires tels que le serveur Web, Node.js, les outils de développement, etc. Créez un environnement de développement, créez des dossiers de projet, initialisez les projets et écrivez du code. Démarrez le serveur de développement et exécutez la commande à l'aide de la ligne de commande. Aperçu du projet dans votre navigateur et entrez l'URL du serveur de développement. Publier des projets, optimiser le code, déployer des projets et configurer la configuration du serveur Web.

Quelles bibliothèques de GO sont développées par de grandes entreprises ou fournies par des projets open source bien connus? Apr 02, 2025 pm 04:12 PM

Quelles bibliothèques de GO sont développées par de grandes entreprises ou des projets open source bien connus? Lors de la programmation en Go, les développeurs rencontrent souvent des besoins communs, ...

Comment spécifier la base de données associée au modèle de Beego ORM? Apr 02, 2025 pm 03:54 PM

Dans le cadre du cadre de beegoorm, comment spécifier la base de données associée au modèle? De nombreux projets Beego nécessitent que plusieurs bases de données soient opérées simultanément. Lorsque vous utilisez Beego ...

La production de pages H5 nécessite-t-elle une maintenance continue? Apr 05, 2025 pm 11:27 PM

La page H5 doit être maintenue en continu, en raison de facteurs tels que les vulnérabilités du code, la compatibilité des navigateurs, l'optimisation des performances, les mises à jour de sécurité et les améliorations de l'expérience utilisateur. Des méthodes de maintenance efficaces comprennent l'établissement d'un système de test complet, à l'aide d'outils de contrôle de version, de surveiller régulièrement les performances de la page, de collecter les commentaires des utilisateurs et de formuler des plans de maintenance.

Comment résoudre le problème de conversion de type user_id lors de l'utilisation du flux redis pour implémenter les files d'attente de messages dans le langage Go? Apr 02, 2025 pm 04:54 PM

Le problème de l'utilisation de Redessstream pour implémenter les files d'attente de messages dans le langage GO consiste à utiliser le langage GO et redis ...

Comment obtenir les données de la région d'expédition de la version à l'étranger? Quelles sont les ressources prêtes à l'emploi disponibles? Apr 01, 2025 am 08:15 AM

Description de la question: Comment obtenir les données de la région d'expédition de la version à l'étranger? Y a-t-il des ressources prêtes à l'emploi disponibles? Soyez précis dans le commerce électronique transfrontalier ou les entreprises mondialisées ...

See all articles