Maison > Périphériques technologiques > IA > La nouvelle étoile vidéo de l'IA en Chine: Step-Video-T2V

La nouvelle étoile vidéo de l'IA en Chine: Step-Video-T2V

Jennifer Aniston
Libérer: 2025-03-04 11:00:12
original
579 Les gens l'ont consulté

La Chine progresse rapidement dans l'IA génératrice, s'appuyant sur des succès comme les modèles Deepseek et Kimi K1.5 dans les modèles de langues. Maintenant, il mène le domaine de la vision avec Omnihuman et Goku excellant dans la modélisation 3D et la synthèse vidéo. Avec Step-Video-T2V, la Chine défie directement les meilleurs modèles de texte à vidéo comme Sora, Veo 2 et le général de film développé par Stepfun AI, Step-Video-T2V est un modèle de paramètre de 30B qui génère des vidéos de haute qualité 204. Il exploite une VIDEO-VAE, des encodeurs bilingues et une DIT d'attention 3D pour définir une nouvelle norme de génération de vidéos. Rassemble-t-il les principaux défis du texte à video? Plongeons-nous.

Table des matières

  • Défis dans les modèles de texte-vidéo
  • Comment le pas-video-T2V résout ces problèmes?
  • Architecture du modèle
    • Encodage de texte avec une compréhension bilingue
    • Variational Autoencoder (VIDEO-VE-VE) pour la compréhension
    • variational Autoencoder (VIDEO-VE-VEL) pour la compréhension
    • Variational Autoencoder (VIDEO-VE-VEL) pour la compréhension
    Variational Autoencoder (VIDEO-VVAA Transformateur (DIT) avec une attention totale 3D
  • normalisation de la couche adaptative (adaln-single)
    • comment fonctionne le pas-video-T2v?
    • Entrée utilisateur (codage texte)
    • Processus de deniot vidéo avec transformat 3D Attention complète)
    • Optimisation (tuning et formation vidéo-DPO)
    Sortie finale (vidéo de haute qualité 204-trame)
  • Benchmarking contre les concurrents
  • Comment accéder à la vide-T2V? Étape-vidéo-t2v
    • van Gogh à Paris
    • Millennium Falcon Journey
  • Conclusion

Défis dans les modèles de texte à vidéo

Bien que les modèles de texte à vidéo aient parcouru un long chemin, ils sont toujours confrontés à des obstacles fondamentaux:

  • Séquences d'action complexes - Les modèles actuels ont du mal à générer des vidéos réalistes qui suivent des séquences d'action complexes, comme une gymnaste effectuant des flips ou un rebond de basket-ball réaliste.
  • physique et causalité - La plupart des modèles basés sur la diffusion ne parviennent pas à simuler efficacement le monde réel. Les interactions d'objets, la gravité et les lois physiques sont souvent négligées.
  • Instruction suivant - Les modèles manquent fréquemment les détails clés des invites utilisateur, en particulier lorsqu'ils traitent de concepts rares (par exemple, un pingouin et un éléphant dans la même vidéo).
  • Coûts de calcul - Génération de vidéos de longue durée haute résolution est Extrêmement intensive en ressources , limitant l'accessibilité pour les chercheurs et les créateurs.
  • Cention et alignement - Les modèles vidéo reposent sur des ensembles de données massifs, mais un mauvais sous-titrage vidéo entraîne une faible adhésion rapide, conduisant à contenu halluciné .

Comment étape-vidéo-T2v résout ces problèmes?

La nouvelle étoile vidéo de l'IA en Chine: Step-Video-T2V

Step-video-T2V relève ces défis avec plusieurs innovations :

  • Video-Vae de compression profonde : Atteint 16 × 16 compression spatiale et 8x temporelle , réduisant considérablement les exigences de calcul tout en maintenant une qualité vidéo élevée.
  • Encodeurs de texte bilingue : intègre hunyuan-cllip et Step-llm , permettant au modèle de traiter efficacement les invites dans les deux chinois et anglais .
  • 3D Dit d'attention complète : Au lieu de l'attention traditionnelle spatiale-temporelle, cette approche améliore la continuité du mouvement et la cohérence de la scène .
  • Video-DPO (Optimisation des préférences directes) : intègre des boucles de rétroaction humaine pour réduire les artefacts, améliorer le réalisme et aligner le contenu généré avec les attentes des utilisateurs.
Architecture du modèle

L'architecture du modèle Step-Video-T2V est structurée autour d'un pipeline en trois parties pour traiter efficacement les invites de texte et générer des vidéos de haute qualité. Le modèle intègre un encodeur de texte bilingue, un autoencodeur variationnel (VIDEO-VAE) et un transformateur de diffusion (DIT) avec une attention 3D, le distinguant des modèles de texte traditionnels à video.

La nouvelle étoile vidéo de l'IA en Chine: Step-Video-T2V

1. Encodage de texte avec compréhension bilingue

Au stade d'entrée, Step-Video-T2V utilise

deux puissants encodeurs de texte bilingue:

  • Hunyuan-Clip : Un modèle de vision optimisé pour Alignement sémantique entre le texte et les images.
  • étape-llm : un modèle de grande langue spécialisé dans compréhension des instructions complexes dans les deux chinois et anglais .
Ces encodeurs traitent l'invite

utilisateur et le convertissent en une représentation latente significative , en s'assurant que le modèle suit avec précision les instructions.

2. Autoencoder variationnel (VIDEO-VAE) pour la compression

Génération de vidéos longues à haute résolution est coûteuse en calcul. Step-video-T2V aborde ce problème avec un autoencoder variationnel de compression

profonde (Video-Vae) qui réduit efficacement les données vidéo:

  • Compression spatiale (16 × 16) et Compression temporelle (8x) Réduire la taille de la vidéo tout en préservant les détails du mouvement.
  • Cela permet
  • des séquences plus longues (204 images) avec des coûts de calcul inférieurs que les modèles précédents.
3. Transformateur de diffusion (DIT) avec une attention totale 3D

Le noyau de la vidéo-Video-T2v est son transformateur de diffusion

(DIT) avec une attention totale 3D , ce qui améliore considérablement la douceur et la cohérence de la scène.

La nouvelle étoile vidéo de l'IA en Chine: Step-Video-T2V

le ième bloc du DIT se compose de plusieurs composants qui affinent le processus de génération vidéo:

Composants clés de chaque bloc de transformateur

  • Cross-Atention : assure un meilleur alignement de texte à vidéo en conditionnant les cadres générés sur le texte incorpore.
  • Auto-attention (avec corde-3D) : utilise codage de position rotatif (corde-3D) pour améliorer compréhension spatiale-temporelle , garantissant que les objets se déplacent naturellement entre les cadres.
  • QK-NORM (Normisation des touches de requête) : Améliore la stabilité des mécanismes d'attention, réduisant les incohérences dans le positionnement des objets.
  • Mécanismes de grille : Ces portes adaptatives régulent le flux d'informations, empêchant un sur-ajustement à des modèles spécifiques et l'amélioration de la généralisation.
  • Opérations d'échelle / décalage : normaliser et affiner les représentations intermédiaires, assurant des transitions en douceur entre les cadres vidéo.

4. Normalisation de la couche adaptative (adaln-single)

  • Le modèle comprend également normalisation de la couche adaptative (adaln-single) , qui ajuste les activations dynamiquement basées sur le timestrep (t) .
  • Cela garantit cohérence temporelle à travers la séquence vidéo.

Comment fonctionne la vidéo-T2v de Step-Video?

Le modèle Step-video-T2V est un système de Text-to-Video AI de pointe qui génère des vidéos riches en mouvement de haute qualité basées sur des descriptions textuelles. Le mécanisme de travail implique de multiples techniques d'IA sophistiquées pour assurer le mouvement en douceur, l'adhésion aux invites et la sortie réaliste. Décomposons-le pas à pas:

1. Entrée utilisateur (codage de texte)

  • Le modèle commence par Traitement d'entrée de l'utilisateur , qui est une invite de texte décrivant la vidéo souhaitée.
  • Cela se fait à l'aide de Encodeurs de texte bilingue (par exemple, hunyuan-cllip et étape-llm ).
  • La capacité bilingue garantit que les invites dans à la fois en anglais et en chinois peuvent être comprises avec précision.

2. Représentation latente (compression avec VIDEO-VAE)

  • La génération de vidéos est lourde en calcul, donc le modèle utilise une Autoencoder variationnel (VAE) spécialisé pour la compression vidéo, appelée vidéo-VAE .
  • Fonction de Video-Vae:
    • comprime les cadres vidéo dans un espace latent à moindre dimension , réduisant considérablement les coûts de calcul .
    • maintient les aspects clés de la qualité vidéo , tels que la continuité du mouvement, les textures et les détails de l'objet .
    • utilise un 16 × 16 spatial et 8x compression temporelle , rendant le modèle efficace tout en préservant la haute fidélité.

3. Processus de débrassement (transformateur de diffusion avec une attention totale 3D)

  • Après avoir obtenu la représentation latente, l'étape suivante est le processus Denaison , qui affine les cadres vidéo.
  • Cela se fait en utilisant un transformateur de diffusion (DIT) , un modèle avancé conçu pour générer des vidéos très réalistes.
  • Innovation clé:
    • Le transformateur de diffusion s'applique 3D pleine attention , un mécanisme puissant qui se concentre sur la dynamique spatiale, temporelle et de mouvement . .
    • .
    • L'utilisation de correspondant à l'écoulement aide améliorer la cohérence du mouvement à travers les cadres, assurant des transitions vidéo plus lisses.

4. Optimisation (réglage fin et formation vidéo-DPO)

La nouvelle étoile vidéo de l'IA en Chine: Step-Video-T2V

La vidéo générée subit une phase d'optimisation, ce qui le rend plus précis, cohérent et visuellement attrayant . Cela implique:

  • Fonctionner le modèle avec des données de haute qualité pour améliorer sa capacité à suivre des invites complexes.
  • Video-DPO (Optimisation des préférences directes) Formation, qui intègre Feedback humain à:
    • réduire les artefacts indésirables.
    • Améliorer le réalisme en mouvement et textures.
    • Aligner la génération de vidéos avec les attentes des utilisateurs.

5. Sortie finale (vidéo de haute qualité 204-trame)

La nouvelle étoile vidéo de l'IA en Chine: Step-Video-T2V

  • La vidéo finale est 204 images longs , ce qui signifie qu'il fournit une durée significative pour la narration .
  • Génération à haute résolution assure des visuels nets et un rendu d'objet clair.
  • Strong Motion Reality signifie que la vidéo maintient mouvement lisse et naturel , ce qui le rend adapté à des scènes complexes comme les gestes humains, les interactions d'objets et les arrière-plans dynamiques.
Benchmarking contre les concurrents

La video-T2v

est évaluée sur étapes-vidéo-T2v-Eval , A 128-PROMPT Benchmark couvrant sports, nourriture, décor, surréalisme, personnes et animation . Comparé aux principaux modèles, il offre la performance de pointe dans la dynamique et le réalisme.

  1. surpasse Hunyuanvideo dans la qualité et la douceur de la vidéo globales.
  2. Rivals Film Gen Video Mais est en retard dans l'esthétique à grains fins en raison de données étiquetées de haute qualité limitées.
  3. bat la piste Gen-3 Alpha en cohérence du mouvement mais légèrement en retard dans l'attrait cinématographique.
  4. défie les meilleurs modèles commerciaux chinois (T2VTOPA et T2VTOPB) mais échoue en qualité esthétique en raison d'une résolution plus faible (540p vs 1080p).

Métriques de performance

étape-vidéo-T2v introduit nouveaux critères d'évaluation :

  • Instruction Suivre - Mesure dans quelle mesure la vidéo générée s'aligne sur l'invite.
  • Smoothness du mouvement - Évalue le flux naturel des actions dans la vidéo.
  • Plausibilité physique - Évalue si les mouvements suivent les lois de la physique.
  • Appel esthétique - juge la qualité artistique et visuelle de la vidéo.

Dans les évaluations humaines, étapes-vidéo-T2V surpasse constamment les concurrents dans le mouvement de la douceur et la plausibilité physique , ce qui en fait l'un des modèles open-source les plus avancés.

comment accéder à la vidéo-vidéo-T2v?

Étape 1: Visitez le site officiel ici.

Étape 2: Inscrivez-vous à l'aide de votre numéro de mobile.

Remarque: Actuellement, les inscriptions ne sont ouvertes que pour un nombre limité de pays. Malheureusement, il n'est pas disponible en Inde, donc je ne pouvais pas m'inscrire. Cependant, vous pouvez essayer si vous êtes situé dans une région soutenue.

La nouvelle étoile vidéo de l'IA en Chine: Step-Video-T2V

Étape 3: Ajouter votre invite et commencer à générer des vidéos incroyables!

La nouvelle étoile vidéo de l'IA en Chine: Step-Video-T2V

Exemple de vidos créés par Step-video-T2V

Voici quelques vidéos générées par cet outil. Je les ai pris de leur site officiel.

van Gogh à Paris

Invite: " Dans les rues de Paris, Van Gogh est assis devant un café, peignant une scène de nuit avec une planche à dessin à la main. La caméra est tournée dans un tir moyen, montrant son expression concentrée et son pinceau rapide. Les réverbères et les piétons en arrière-plan sont légèrement flous, utilisant une profondeur de champ peu profonde pour mettre en évidence son image. Au fil du temps, le ciel passe du crépuscule à la nuit, et les étoiles apparaissent progressivement. La caméra s'éloigne lentement pour voir la comparaison entre son travail fini et la vraie scène de nuit. »

Millennium Falcon Journey

Invite: " Dans le vaste univers, le Millennium Falcon de Star Wars voyage à travers les étoiles. La caméra montre le vaisseau spatial volant parmi les étoiles dans une vue lointaine. La caméra suit rapidement la trajectoire du vaisseau spatial, montrant sa navette à grande vitesse. En entrant dans le cockpit, la caméra se concentre sur les expressions faciales de Han Solo et Chewbacca, qui exploitent nerveusement les instruments. Les lumières du tableau de bord scintillent et le ciel étoilé de fond passe rapidement à l'extérieur du hublot. »

Conclusion

La video-T2v de Step n'est pas encore disponible en dehors de la Chine. Une fois public, je testerai et partagerai mon avis. Pourtant, il signale une avancée majeure dans l'IA générative chinoise, prouvant que ses laboratoires façonnent l'avenir de l'IA multimodal aux côtés d'Openai et de DeepMind. La prochaine étape pour la génération de vidéos exige une meilleure capacité de suivi des instructions, une simulation physique et des ensembles de données plus riches. Step-vidéo-T2v ouvre la voie à des modèles vidéo open source, à autonomiser les chercheurs et les créateurs mondiaux. L'élan de l'IA en Chine suggère des innovations de texte à vidéo plus réalistes et efficaces à venir

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal