Maison Périphériques technologiques IA La première technologie de génération vidéo IA en temps réel de l'histoire : DiT universal, 10,6 fois plus rapide

La première technologie de génération vidéo IA en temps réel de l'histoire : DiT universal, 10,6 fois plus rapide

Jun 28, 2024 pm 07:14 PM
产业 génération vidéo

DiT peut être utilisé pour générer des vidéos sans perte de qualité et sans formation requise.

La génération de vidéos IA en temps réel est arrivée !

Mercredi, l'équipe de You Yang de l'Université nationale de Singapour a proposé la première méthode de génération vidéo basée sur DiT du secteur pouvant être produite en temps réel.

La première technologie de génération vidéo IA en temps réel de lhistoire : DiT universal, 10,6 fois plus rapide

La technologie s'appelle Pyramid Attention Broadcast (PAB). En réduisant les calculs d'attention redondants, PAB atteint des fréquences d'images allant jusqu'à 21,6 FPS et une accélération de 10,6x sans sacrifier les avantages des modèles de génération vidéo populaires basés sur DiT, notamment la qualité Open-Sora, Open-Sora-Plan et Latte. Il convient de noter qu'en tant que méthode ne nécessitant pas de formation, PAB peut accélérer tout futur modèle de génération vidéo basé sur DiT, lui donnant la possibilité de générer de la vidéo en temps réel.

Depuis cette année, Sora d'OpenAI et d'autres modèles de génération vidéo basés sur DiT ont provoqué une autre vague dans le domaine de l'IA. Cependant, par rapport à la génération d'images, la génération vidéo se concentre essentiellement sur la qualité, et peu d'études se concentrent sur la manière d'accélérer l'inférence du modèle DiT. Accélérer l’inférence de modèles génératifs vidéo est déjà une priorité pour les applications d’IA générative.

L'émergence de la méthode PAB nous a ouvert une voie. Comparaison de la méthode originale et de la vitesse de génération vidéo PAB. L'auteur a testé 5 vidéos de résolution 480p 4s (192 images) sur Open-Sora. La première technologie de génération vidéo IA en temps réel de lhistoire : DiT universal, 10,6 fois plus rapide

Lien GitHub : https://github.com/NUS-HPC-AI-Lab/OpenDiT?tab=readme-ov-file#pyramid-attention-broadcast-pab-blogdoc

diffusion d'attention de la pyramide

Récemment, Sora et d'autres modèles de génération vidéo basés sur DiT ont attiré une large attention. Cependant, par rapport à la génération d’images, peu d’études se sont concentrées sur l’accélération de l’inférence de modèles de génération vidéo basés sur DiT. De plus, le coût d’inférence lié à la génération d’une seule vidéo peut être élevé.散 Figure 1 : Différences entre les étapes de diffusion actuelles et les étapes de diffusion précédentes, et l'erreur différentielle (MSE) est quantifiée.

Mise en œuvre

Cette étude révèle deux observations clés du mécanisme d'attention dans le transformateur de diffusion vidéo :

La première technologie de génération vidéo IA en temps réel de lhistoire : DiT universal, 10,6 fois plus rapidePremièrement, la différence d'attention à différents pas de temps présente un motif en forme de U, au début et aux 15 dernières Le pourcentage de pas change de manière significative, tandis que les 70 % de pas du milieu sont très stables avec de petites différences.

Deuxièmement, au sein du segment intermédiaire stable, il existe des différences entre les types d'attention : l'attention spatiale change le plus, impliquant des éléments à haute fréquence tels que les bords et les textures ; l'attention temporelle montre des changements à moyenne fréquence liés au mouvement et à la dynamique dans la vidéo ; L'attention intermodale est la plus stable, reliant le texte au contenu vidéo, similaire aux signaux basse fréquence reflétant la sémantique du texte. Sur cette base, l'équipe de recherche a proposé une diffusion pyramidale de l'attention pour réduire les calculs d'attention inutiles. Dans la partie médiane, l'attention montre de petites différences et l'étude diffuse le résultat de l'attention d'une étape de diffusion vers plusieurs étapes suivantes, réduisant ainsi considérablement le coût de calcul. De plus, pour un calcul plus efficace et une perte de qualité minimale, l'auteur définit différentes plages de diffusion en fonction de la stabilité et de la différence des différentes attentions. Même sans post-formation, cette stratégie simple mais efficace permet d'obtenir des accélérations allant jusqu'à 35 % avec une perte de qualité négligeable dans le contenu généré.

Figure 2 : Cette étude propose une diffusion d'attention pyramidale, dans laquelle différentes plages de diffusion sont définies pour trois attentions en fonction des différences d'attention. Plus le changement d’attention est faible, plus la portée de diffusion est large. Au moment de l'exécution, la méthode diffuse les résultats de l'attention aux étapes suivantes pour éviter les calculs d'attention redondants. x_t fait référence aux caractéristiques au pas de temps t.

Parallèle

La figure 3 ci-dessous montre la comparaison entre la méthode décrite dans cet article et la Dynamic Sequence Paralle (DSP) originale. Lorsque l’attention temporelle se propage, alors toute communication peut être évitée.

La première technologie de génération vidéo IA en temps réel de lhistoire : DiT universal, 10,6 fois plus rapide

Afin d'améliorer encore la vitesse de génération vidéo, cet article utilise le DSP pour améliorer le parallélisme des séquences. Sequence Parallel divise la vidéo en différentes parties sur plusieurs GPU, réduisant ainsi la charge de travail sur chaque GPU et la latence de construction. Cependant, le DSP introduit une surcharge de communication importante, nécessitant du temps et de l'attention pour préparer deux communications tout-à-tout.

En propageant l'attention temporelle dans PAB, cet article n'a plus besoin de calculer l'attention temporelle, réduisant ainsi la communication. En conséquence, la surcharge de communication est considérablement réduite de plus de 50 %, permettant une inférence distribuée plus efficace pour la génération vidéo en temps réel.

Résultats de l'évaluation

Accélération

La figure suivante montre la latence PAB totale mesurée par différents modèles lors de la génération d'une seule vidéo sur 8 GPU NVIDIA H100. En utilisant un seul GPU, les auteurs ont obtenu une accélération de 1,26 à 1,32x et sont restés stables sur différents planificateurs.

Lorsqu'elle est étendue à plusieurs GPU, cette méthode a atteint une accélération de 10,6x et a bénéficié d'améliorations efficaces du parallélisme séquentiel pour obtenir une expansion quasi linéaire avec le nombre de GPU.

La première technologie de génération vidéo IA en temps réel de lhistoire : DiT universal, 10,6 fois plus rapide

Résultats qualitatifs

Les trois vidéos suivantes sont respectivement Open-Sora, Open-Sora-Plan et Latte. Trois modèles différents utilisent la méthode originale pour comparer les effets de la méthode présentée dans cet article. On peut voir que la méthode décrite dans cet article permet d'atteindre différents degrés d'accélération FPS sous différents nombres de GPU. La première technologie de génération vidéo IA en temps réel de lhistoire : DiT universal, 10,6 fois plus rapideLa première technologie de génération vidéo IA en temps réel de lhistoire : DiT universal, 10,6 fois plus rapideLa première technologie de génération vidéo IA en temps réel de lhistoire : DiT universal, 10,6 fois plus rapide

Résultats quantitatifs

Le tableau suivant présente les LPIPS (Learning Perceptual Image Patch Similarity) et SSIM (Structural Similarity) des trois modèles d'Open-Sora, Open-Sora-Plan et Latte ).

La première technologie de génération vidéo IA en temps réel de lhistoire : DiT universal, 10,6 fois plus rapide

Plus de détails techniques et de résultats d'évaluation seront disponibles dans le prochain article.

Adresse du projet : https://oahzxl.github.io/PAB/

Lien de référence :

https://oahzxl.github.io/PAB/

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Grow A Garden - Guide de mutation complet
3 Il y a quelques semaines By DDD
<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Système de fusion, expliqué
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1664
14
Tutoriel PHP
1269
29
Tutoriel C#
1249
24
Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Aug 09, 2024 pm 04:01 PM

Mais peut-être qu’il ne pourra pas vaincre le vieil homme dans le parc ? Les Jeux Olympiques de Paris battent leur plein et le tennis de table suscite beaucoup d'intérêt. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table. DeepMind vient tout juste de proposer le premier agent robot apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition. Adresse papier : https://arxiv.org/pdf/2408.03906 Quelle est la capacité du robot DeepMind à jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains : tant en coup droit qu'en revers : l'adversaire utilise une variété de styles de jeu, et le robot peut également résister : recevoir des services avec des tours différents : Cependant, l'intensité du jeu ne semble pas aussi intense que le vieil homme dans le parc. Pour les robots, le tennis de table

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison Aug 21, 2024 pm 07:33 PM

Le 21 août, la Conférence mondiale sur les robots 2024 s'est tenue en grande pompe à Pékin. La marque de robots domestiques de SenseTime, "Yuanluobot SenseRobot", a dévoilé toute sa famille de produits et a récemment lancé le robot de jeu d'échecs Yuanluobot AI - Chess Professional Edition (ci-après dénommé "Yuanluobot SenseRobot"), devenant ainsi le premier robot d'échecs au monde pour le maison. En tant que troisième produit robot jouant aux échecs de Yuanluobo, le nouveau robot Guoxiang a subi un grand nombre de mises à niveau techniques spéciales et d'innovations en matière d'IA et de machines d'ingénierie. Pour la première fois, il a réalisé la capacité de ramasser des pièces d'échecs en trois dimensions. grâce à des griffes mécaniques sur un robot domestique et effectuer des fonctions homme-machine telles que jouer aux échecs, tout le monde joue aux échecs, réviser la notation, etc.

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Sep 02, 2024 pm 01:56 PM

La rentrée scolaire est sur le point de commencer, et ce ne sont pas seulement les étudiants qui sont sur le point de commencer le nouveau semestre qui doivent prendre soin d’eux-mêmes, mais aussi les grands modèles d’IA. Il y a quelque temps, Reddit était rempli d'internautes se plaignant de la paresse de Claude. « Son niveau a beaucoup baissé, il fait souvent des pauses et même la sortie devient très courte. Au cours de la première semaine de sortie, il pouvait traduire un document complet de 4 pages à la fois, mais maintenant il ne peut même plus produire une demi-page. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dans un post intitulé "Totalement déçu par Claude", plein de

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Aug 22, 2024 pm 10:35 PM

Lors de la World Robot Conference qui se tient à Pékin, l'exposition de robots humanoïdes est devenue le centre absolu de la scène. Sur le stand Stardust Intelligent, l'assistant robot IA S1 a réalisé trois performances majeures de dulcimer, d'arts martiaux et de calligraphie. un espace d'exposition, capable à la fois d'arts littéraires et martiaux, a attiré un grand nombre de publics professionnels et de médias. Le jeu élégant sur les cordes élastiques permet au S1 de démontrer un fonctionnement fin et un contrôle absolu avec vitesse, force et précision. CCTV News a réalisé un reportage spécial sur l'apprentissage par imitation et le contrôle intelligent derrière "Calligraphy". Le fondateur de la société, Lai Jie, a expliqué que derrière les mouvements soyeux, le côté matériel recherche le meilleur contrôle de la force et les indicateurs corporels les plus humains (vitesse, charge). etc.), mais du côté de l'IA, les données réelles de mouvement des personnes sont collectées, permettant au robot de devenir plus fort lorsqu'il rencontre une situation forte et d'apprendre à évoluer rapidement. Et agile

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Les contributeurs ont beaucoup gagné de cette conférence ACL. L'ACL2024, d'une durée de six jours, se tient à Bangkok, en Thaïlande. ACL est la plus grande conférence internationale dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. L'ACL s'est toujours classée première en termes d'influence académique dans le domaine de la PNL, et c'est également une conférence recommandée par le CCF-A. La conférence ACL de cette année est la 62e et a reçu plus de 400 travaux de pointe dans le domaine de la PNL. Hier après-midi, la conférence a annoncé le meilleur article et d'autres récompenses. Cette fois, il y a 7 Best Paper Awards (deux inédits), 1 Best Theme Paper Award et 35 Outstanding Paper Awards. La conférence a également décerné 3 Resource Paper Awards (ResourceAward) et Social Impact Award (

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o Sep 03, 2024 pm 05:18 PM

Intégration profonde de la vision et de l'apprentissage des robots. Lorsque deux mains de robot travaillent ensemble en douceur pour plier des vêtements, verser du thé et emballer des chaussures, associées au robot humanoïde 1X NEO qui a fait la une des journaux récemment, vous pouvez avoir le sentiment : nous semblons entrer dans l'ère des robots. En fait, ces mouvements soyeux sont le produit d’une technologie robotique avancée + d’une conception de cadre exquise + de grands modèles multimodaux. Nous savons que les robots utiles nécessitent souvent des interactions complexes et exquises avec l’environnement, et que l’environnement peut être représenté comme des contraintes dans les domaines spatial et temporel. Par exemple, si vous souhaitez qu'un robot verse du thé, le robot doit d'abord saisir la poignée de la théière et la maintenir verticalement sans renverser le thé, puis la déplacer doucement jusqu'à ce que l'embouchure de la théière soit alignée avec l'embouchure de la tasse. , puis inclinez la théière selon un certain angle. ce

Conférence sur l'intelligence artificielle distribuée Appel à communications DAI 2024 : Agent Day, Richard Sutton, le père de l'apprentissage par renforcement, sera présent ! Yan Shuicheng, Sergey Levine et les scientifiques de DeepMind prononceront des discours d'ouverture Conférence sur l'intelligence artificielle distribuée Appel à communications DAI 2024 : Agent Day, Richard Sutton, le père de l'apprentissage par renforcement, sera présent ! Yan Shuicheng, Sergey Levine et les scientifiques de DeepMind prononceront des discours d'ouverture Aug 22, 2024 pm 08:02 PM

Introduction à la conférence Avec le développement rapide de la science et de la technologie, l'intelligence artificielle est devenue une force importante dans la promotion du progrès social. À notre époque, nous avons la chance d’être témoins et de participer à l’innovation et à l’application de l’intelligence artificielle distribuée (DAI). L’intelligence artificielle distribuée est une branche importante du domaine de l’intelligence artificielle, qui a attiré de plus en plus d’attention ces dernières années. Les agents basés sur de grands modèles de langage (LLM) ont soudainement émergé. En combinant les puissantes capacités de compréhension du langage et de génération des grands modèles, ils ont montré un grand potentiel en matière d'interaction en langage naturel, de raisonnement par connaissances, de planification de tâches, etc. AIAgent reprend le grand modèle de langage et est devenu un sujet brûlant dans le cercle actuel de l'IA. Au

Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Aug 08, 2024 am 07:02 AM

Cet après-midi, Hongmeng Zhixing a officiellement accueilli de nouvelles marques et de nouvelles voitures. Le 6 août, Huawei a organisé la conférence de lancement de nouveaux produits Hongmeng Smart Xingxing S9 et Huawei, réunissant la berline phare intelligente panoramique Xiangjie S9, le nouveau M7Pro et Huawei novaFlip, MatePad Pro 12,2 pouces, le nouveau MatePad Air, Huawei Bisheng With de nombreux nouveaux produits intelligents tous scénarios, notamment la série d'imprimantes laser X1, FreeBuds6i, WATCHFIT3 et l'écran intelligent S5Pro, des voyages intelligents, du bureau intelligent aux vêtements intelligents, Huawei continue de construire un écosystème intelligent complet pour offrir aux consommateurs une expérience intelligente du Internet de tout. Hongmeng Zhixing : Autonomisation approfondie pour promouvoir la modernisation de l'industrie automobile intelligente Huawei s'associe à ses partenaires de l'industrie automobile chinoise pour fournir

See all articles