Anda tentukan laluan dan Tora akan menjana video trajektori yang sepadan.
Pada masa ini, model resapan mampu menghasilkan imej atau video yang pelbagai dan berkualiti tinggi. Sebelum ini, model penyebaran video menggunakan seni bina U-Net, yang tertumpu terutamanya pada mensintesis video dalam tempoh terhad (biasanya sekitar dua saat), dengan kekangan tetap pada resolusi dan nisbah bidang. Kemunculan Sora melanggar batasan ini Ia menggunakan seni bina Diffusion Transformer (DiT), yang bukan sahaja bagus untuk menghasilkan video berkualiti tinggi selama 10 hingga 60 saat, tetapi juga kerana ia menghasilkan resolusi yang berbeza, pelbagai aspek. nisbah, dan menonjol dengan keupayaan mereka untuk mematuhi undang-undang sebenar fizik. Boleh dikatakan bahawa Sora ialah demonstrasi seni bina DiT yang paling digemari, namun, model resapan berasaskan Transformer belum diterokai sepenuhnya dalam menghasilkan video tindakan boleh dikawal secara berkesan. Sebagai tindak balas kepada masalah ini, penyelidik dari Alibaba mencadangkan Tora, seni bina DiT berorientasikan trajektori pertama, yang menyepadukan keadaan teks, visual dan trajektori secara serentak untuk menjana video. Tora direka bentuk untuk berfungsi dengan lancar dengan skalabiliti DiT, membenarkan kawalan tepat kandungan video dengan tempoh, nisbah bidang dan resolusi yang berbeza. Eksperimen yang meluas telah membuktikan bahawa Tora cemerlang dalam mencapai kesetiaan gerakan yang tinggi sambil juga mensimulasikan pergerakan dunia fizikal secara terperinci.
- Alamat kertas: https://arxiv.org/pdf/2407.21705
-
Laman utama kertas: https://ali-videoai.github.io/tajuk
Paper : Tora: Pengubah Resapan berorientasikan trajektori untuk Penjanaan Video
Sebuah bot layar kayu kuno meluncur dengan lancar di sungai yang diselubungi kabus di sepanjang laluan yang ditetapkan, dikelilingi oleh hutan hijau tebal. Seekor ikan crucian berenang dengan anggun merentasi permukaan batu merah Marikh, lintasan ikan ke kiri, dan lintasan Marikh ke kanan. Belon udara panas naik ke langit malam di sepanjang trajektori yang berbeza, satu di sepanjang garis serong yang ditetapkan dan satu lagi di sepanjang trajektori melengkung. Dua anak kucing comel berjalan beriringan di pantai keemasan yang tenang. Buih-buih terapung perlahan-lahan di sepanjang trek di antara bunga liar yang sedang mekar. Daun maple bergetar di tasik yang jernih, mencerminkan hutan musim luruh. Air terjun di pergunungan mencurah-curah, dan tema serta latar belakang boleh dialihkan di laluan yang berbeza. Dalam perbandingan antara Tora dan kaedah lain, dapat dilihat bahawa video yang dihasilkan oleh Tora lebih lancar, lebih mengikut trajektori, dan objek tidak mempunyai masalah ubah bentuk dan mempunyai ketepatan yang lebih baik. Introduction à la méthodeTora utilise OpenSora comme modèle de base de son architecture DiT, comprenant un extracteur de trajectoire (TE, Trajectory Extractor), un DiT spatial-temporel (Spatial-Temporal DiT) et une fusion de guidage de mouvement ( MGF), Fuser de guidage de mouvement). TE utilise un réseau de compression vidéo 3D pour coder des trajectoires arbitraires en patchs de mouvement spatio-temporels hiérarchiques. MGF intègre des patchs de mouvement dans les blocs DiT pour générer des vidéos cohérentes qui suivent les trajectoires. La figure 3 présente le flux de travail de Tora. DiT espace-temps (ST-DiT) L'architecture ST-DiT contient deux types de blocs différents : le bloc DiT spatial (S-DiT-B) et le bloc DiT temporel (T-DiT- B), ils sont disposés en alternance. S-DiT-B se compose de deux couches d'attention, chacune effectuant séquentiellement une auto-attention spatiale (SSA) et une attention croisée, suivies d'une couche de rétroaction ponctuelle pour connecter la pièce T-DiT-B adjacente. T-DiT-B ne modifie cette architecture qu'en remplaçant SSA par Temporal Self-Attention (TSA), conservant ainsi la cohérence architecturale. Dans chaque bloc, l'entrée, après normalisation, est reconnectée à la sortie du bloc via des connexions sautées. En tirant parti de la capacité de gérer des séquences de longueur variable, le débruitage ST-DiT peut gérer des vidéos de durée variable. Extracteur de trajectoireLa trajectoire s'est avérée être un moyen plus convivial de contrôler le mouvement dans les vidéos générées. Cependant, le modèle DiT adopte un encodeur vidéo automatique et un processus de patch pour convertir la vidéo en patchs vidéo. Ici, chaque patch est exporté sur plusieurs images, il est donc inapproprié de prendre directement des décalages inter-images. Pour résoudre ce problème, le TE proposé dans cet article convertit la trajectoire en un patch de mouvement, situé dans le même espace latent que le patch vidéo. Pour combiner la génération vidéo basée sur DiT avec des trajectoires, cet article explore trois variantes d'architecture de fusion qui injectent des patchs de mouvement dans chaque bloc ST-DiT. Ces conceptions sont illustrées à la figure 4. En termes de détails de mise en œuvre, les chercheurs ont formé Tora sur la base des poids OpenSora v1.2. Les vidéos de formation ont une résolution de 144p à 720p. Pour équilibrer la mémoire requise pour la formation des FLOP avec différentes résolutions et nombres d'images par itération, nous avons ajusté la taille du lot en conséquence de 1 à 25. Quant à l'infrastructure de formation, les chercheurs ont utilisé 4 optimiseurs NVIDIA A100 et Adam avec un taux d'apprentissage de 2 × 10^−5. Les chercheurs ont comparé Tora aux méthodes populaires de génération de vidéos d'instructions d'exercices. Trois paramètres ont été utilisés dans l'évaluation, 16, 64 et 128 images, le tout à une résolution de 512 × 512. Les résultats sont présentés dans le tableau 1 ci-dessous. Sous le paramètre de 16 images couramment utilisé par la méthode U-Net, MotionCtrl et DragNUWA sont mieux capables de s'aligner sur la trajectoire fournie, mais sont toujours plus faibles que Tora. À mesure que le nombre d'images augmente, la méthode U-Net devient considérablement biaisée dans certaines images, et la propagation des erreurs d'alignement peut entraîner des déformations, un flou de mouvement ou une disparition d'objets dans les séquences suivantes. En revanche, Tora fait preuve d'une grande robustesse aux changements de fréquence d'images grâce aux capacités de mise à l'échelle intégrées de Transformer. Le mouvement produit par Tora est plus fluide et plus cohérent avec le monde physique. Pour une évaluation dans un cadre de test de 128 images, la précision de trajectoire de Tora est 3 à 5 fois supérieure à celle des autres méthodes, démontrant des capacités supérieures de contrôle de mouvement. Dans la figure 5 ci-dessous, le chercheur analyse les erreurs de trajectoire à différentes résolutions et durées. Les résultats montrent que contrairement à U-Net, qui présente des erreurs de trajectoire évidentes au fil du temps, les erreurs de trajectoire de Tora augmentent progressivement avec le temps. Ceci est cohérent avec la diminution de la qualité vidéo à mesure que le temps augmente dans le modèle DiT. Tora maintient un contrôle efficace de la trajectoire pendant de plus longues périodes. La figure 6 ci-dessous montre l'analyse comparative entre Tora et les méthodes de contrôle de mouvement traditionnelles. Dans une scène impliquant deux personnes se déplaçant ensemble, toutes les méthodes peuvent générer des trajectoires de mouvement relativement précises. La qualité visuelle de Tora est cependant meilleure, grâce à l'utilisation d'images de séquence plus longues, ce qui permet d'obtenir des trajectoires de mouvement plus fluides et un rendu d'arrière-plan plus réaliste. On peut voir que dans la scène de vélo générée par Tora, les jambes humaines montrent des mouvements de pédalage réalistes, tandis que les jambes de DragNUWA flottent presque horizontalement, violant la réalité physique. De plus, DragNUWA et MotionCtrl souffrent tous deux d'un flou de mouvement important à la fin de la vidéo. Dans une autre scène où une lanterne est générée, DragNUWA montre une déformation sévère alors que la trajectoire fournie continue de monter et de descendre. Même si la trajectoire de MotionCtrl était relativement précise, la vidéo résultante ne correspondait pas à la description des deux lanternes. Tora suit non seulement strictement la trajectoire, mais minimise également la déformation de l'objet, garantissant ainsi une représentation d'action plus fidèle. Veuillez vous référer à l'article original pour plus de détails techniques et de résultats expérimentaux. Atas ialah kandungan terperinci 'Versi Sora yang boleh dikawal trajektori' Alibaba mengucapkan selamat tinggal kepada 'kad lukisan' dan menjadikan penjanaan video lebih konsisten dengan undang-undang fizikal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!