La « version de Sora à trajectoire contrôlable » d'Alibaba fait ses adieux au « tirage de cartes » et rend la génération vidéo plus conforme aux lois physiques-IA-php.cn

Vous précisez l'itinéraire, et Tora générera une vidéo de la trajectoire correspondante.

Actuellement, les modèles de diffusion sont capables de générer des images ou des vidéos diversifiées et de haute qualité. Auparavant, les modèles de diffusion vidéo utilisaient l'architecture U-Net, principalement axée sur la synthèse de vidéos de durée limitée (généralement environ deux secondes), avec des contraintes fixes de résolution et de format d'image.

L'émergence de Sora brise cette limitation. Il utilise l'architecture Diffusion Transformer (DiT), qui est non seulement efficace pour produire des vidéos de haute qualité de 10 à 60 secondes, mais aussi parce qu'elle génère différentes résolutions, différents aspects. ratios, et se démarquent par leur capacité à obéir aux lois actuelles de la physique.

On peut dire que Sora est la démonstration la plus favorable de l'architecture DiT, cependant, le modèle de diffusion basé sur Transformer n'a pas été entièrement exploré pour générer efficacement des vidéos d'action contrôlables.

En réponse à ce problème, des chercheurs d'Alibaba ont proposé Tora, la première architecture DiT orientée trajectoire, qui intègre simultanément les conditions textuelles, visuelles et de trajectoire pour générer des vidéos.

La « version de Sora à trajectoire contrôlable » dAlibaba fait ses adieux au « tirage de cartes » et rend la génération vidéo plus conforme aux lois physiques

Tora est conçu pour fonctionner de manière transparente avec l'évolutivité de DiT, permettant un contrôle précis du contenu vidéo avec différentes durées, formats d'image et résolutions. Des expériences approfondies ont prouvé que Tora excelle dans l’obtention d’une haute fidélité de mouvement tout en simulant en détail le mouvement du monde physique.

La « version de Sora à trajectoire contrôlable » dAlibaba fait ses adieux au « tirage de cartes » et rend la génération vidéo plus conforme aux lois physiques

Adresse du papier : https://arxiv.org/pdf/2407.21705
Page d'accueil du papier : https://ali-videoai.github.io/tora_video/
Titre du papier : Tora : Transformateur de diffusion orienté trajectoire pour la génération vidéo

Un voilier en bois à l'ancienne glisse en douceur sur la rivière enveloppée de brume le long de l'itinéraire prescrit, entouré de forêts vertes denses.

La « version de Sora à trajectoire contrôlable » dAlibaba fait ses adieux au « tirage de cartes » et rend la génération vidéo plus conforme aux lois physiques

Un carassin nage gracieusement sur la surface des roches rouges de Mars, la trajectoire du poisson est à gauche et la trajectoire de Mars est à droite.

La « version de Sora à trajectoire contrôlable » dAlibaba fait ses adieux au « tirage de cartes » et rend la génération vidéo plus conforme aux lois physiques

La montgolfière s'élève dans le ciel nocturne selon différentes trajectoires, l'une le long de la ligne oblique prescrite et l'autre le long de la trajectoire courbe.

La « version de Sora à trajectoire contrôlable » dAlibaba fait ses adieux au « tirage de cartes » et rend la génération vidéo plus conforme aux lois physiques

Deux chatons mignons marchant côte à côte sur la tranquille plage dorée.

La « version de Sora à trajectoire contrôlable » dAlibaba fait ses adieux au « tirage de cartes » et rend la génération vidéo plus conforme aux lois physiques

Des bulles flottent doucement le long des pistes parmi les fleurs sauvages en fleurs.

La « version de Sora à trajectoire contrôlable » dAlibaba fait ses adieux au « tirage de cartes » et rend la génération vidéo plus conforme aux lois physiques

Les feuilles d'érable tremblent sur le lac clair, reflétant la forêt d'automne.

La « version de Sora à trajectoire contrôlable » dAlibaba fait ses adieux au « tirage de cartes » et rend la génération vidéo plus conforme aux lois physiques

Les cascades des montagnes se déversent et les thèmes et arrière-plans peuvent être déplacés le long de différents itinéraires.

La « version de Sora à trajectoire contrôlable » dAlibaba fait ses adieux au « tirage de cartes » et rend la génération vidéo plus conforme aux lois physiques

Dans la comparaison entre Tora et d'autres méthodes, on peut voir que la vidéo générée par Tora est plus fluide, suit davantage la trajectoire, et l'objet n'a pas de problèmes de déformation et a une meilleure fidélité.

La « version de Sora à trajectoire contrôlable » dAlibaba fait ses adieux au « tirage de cartes » et rend la génération vidéo plus conforme aux lois physiques

Introduction à la méthode

Tora utilise OpenSora comme modèle de base de son architecture DiT, comprenant un extracteur de trajectoire (TE, Trajectory Extractor), un DiT spatial-temporel (Spatial-Temporal DiT) et une fusion de guidage de mouvement ( MGF), Fuser de guidage de mouvement). TE utilise un réseau de compression vidéo 3D pour coder des trajectoires arbitraires en patchs de mouvement spatio-temporels hiérarchiques. MGF intègre des patchs de mouvement dans les blocs DiT pour générer des vidéos cohérentes qui suivent les trajectoires. La figure 3 présente le flux de travail de Tora.

La « version de Sora à trajectoire contrôlable » dAlibaba fait ses adieux au « tirage de cartes » et rend la génération vidéo plus conforme aux lois physiques

DiT espace-temps (ST-DiT)

L'architecture ST-DiT contient deux types de blocs différents : le bloc DiT spatial (S-DiT-B) et le bloc DiT temporel (T-DiT- B), ils sont disposés en alternance. S-DiT-B se compose de deux couches d'attention, chacune effectuant séquentiellement une auto-attention spatiale (SSA) et une attention croisée, suivies d'une couche de rétroaction ponctuelle pour connecter la pièce T-DiT-B adjacente. T-DiT-B ne modifie cette architecture qu'en remplaçant SSA par Temporal Self-Attention (TSA), conservant ainsi la cohérence architecturale. Dans chaque bloc, l'entrée, après normalisation, est reconnectée à la sortie du bloc via des connexions sautées. En tirant parti de la capacité de gérer des séquences de longueur variable, le débruitage ST-DiT peut gérer des vidéos de durée variable.

Extracteur de trajectoire

La trajectoire s'est avérée être un moyen plus convivial de contrôler le mouvement dans les vidéos générées. Cependant, le modèle DiT adopte un encodeur vidéo automatique et un processus de patch pour convertir la vidéo en patchs vidéo. Ici, chaque patch est exporté sur plusieurs images, il est donc inapproprié de prendre directement des décalages inter-images. Pour résoudre ce problème, le TE proposé dans cet article convertit la trajectoire en un patch de mouvement, situé dans le même espace latent que le patch vidéo.

Motion Guided Fusion

Pour combiner la génération vidéo basée sur DiT avec des trajectoires, cet article explore trois variantes d'architecture de fusion qui injectent des patchs de mouvement dans chaque bloc ST-DiT. Ces conceptions sont illustrées à la figure 4.

La « version de Sora à trajectoire contrôlable » dAlibaba fait ses adieux au « tirage de cartes » et rend la génération vidéo plus conforme aux lois physiques

Résultats expérimentaux

En termes de détails de mise en œuvre, les chercheurs ont formé Tora sur la base des poids OpenSora v1.2. Les vidéos de formation ont une résolution de 144p à 720p. Pour équilibrer la mémoire requise pour la formation des FLOP avec différentes résolutions et nombres d'images par itération, nous avons ajusté la taille du lot en conséquence de 1 à 25.

Quant à l'infrastructure de formation, les chercheurs ont utilisé 4 optimiseurs NVIDIA A100 et Adam avec un taux d'apprentissage de 2 × 10^−5.

Les chercheurs ont comparé Tora aux méthodes populaires de génération de vidéos d'instructions d'exercices. Trois paramètres ont été utilisés dans l'évaluation, 16, 64 et 128 images, le tout à une résolution de 512 × 512.

Les résultats sont présentés dans le tableau 1 ci-dessous. Sous le paramètre de 16 images couramment utilisé par la méthode U-Net, MotionCtrl et DragNUWA sont mieux capables de s'aligner sur la trajectoire fournie, mais sont toujours plus faibles que Tora. À mesure que le nombre d'images augmente, la méthode U-Net devient considérablement biaisée dans certaines images, et la propagation des erreurs d'alignement peut entraîner des déformations, un flou de mouvement ou une disparition d'objets dans les séquences suivantes.

La « version de Sora à trajectoire contrôlable » dAlibaba fait ses adieux au « tirage de cartes » et rend la génération vidéo plus conforme aux lois physiques

En revanche, Tora fait preuve d'une grande robustesse aux changements de fréquence d'images grâce aux capacités de mise à l'échelle intégrées de Transformer. Le mouvement produit par Tora est plus fluide et plus cohérent avec le monde physique. Pour une évaluation dans un cadre de test de 128 images, la précision de trajectoire de Tora est 3 à 5 fois supérieure à celle des autres méthodes, démontrant des capacités supérieures de contrôle de mouvement.

Dans la figure 5 ci-dessous, le chercheur analyse les erreurs de trajectoire à différentes résolutions et durées. Les résultats montrent que contrairement à U-Net, qui présente des erreurs de trajectoire évidentes au fil du temps, les erreurs de trajectoire de Tora augmentent progressivement avec le temps. Ceci est cohérent avec la diminution de la qualité vidéo à mesure que le temps augmente dans le modèle DiT. Tora maintient un contrôle efficace de la trajectoire pendant de plus longues périodes.

La figure 6 ci-dessous montre l'analyse comparative entre Tora et les méthodes de contrôle de mouvement traditionnelles. Dans une scène impliquant deux personnes se déplaçant ensemble, toutes les méthodes peuvent générer des trajectoires de mouvement relativement précises. La qualité visuelle de Tora est cependant meilleure, grâce à l'utilisation d'images de séquence plus longues, ce qui permet d'obtenir des trajectoires de mouvement plus fluides et un rendu d'arrière-plan plus réaliste.

On peut voir que dans la scène de vélo générée par Tora, les jambes humaines montrent des mouvements de pédalage réalistes, tandis que les jambes de DragNUWA flottent presque horizontalement, violant la réalité physique. De plus, DragNUWA et MotionCtrl souffrent tous deux d'un flou de mouvement important à la fin de la vidéo.

Dans une autre scène où une lanterne est générée, DragNUWA montre une déformation sévère alors que la trajectoire fournie continue de monter et de descendre. Même si la trajectoire de MotionCtrl était relativement précise, la vidéo résultante ne correspondait pas à la description des deux lanternes. Tora suit non seulement strictement la trajectoire, mais minimise également la déformation de l'objet, garantissant ainsi une représentation d'action plus fidèle.

La « version de Sora à trajectoire contrôlable » dAlibaba fait ses adieux au « tirage de cartes » et rend la génération vidéo plus conforme aux lois physiques