Sumber pengkomputeran yang digunakan hanyalah 2/25 model Resapan Video Stabil(SVD) tradisional!
AnimateLCM-SVD-xt dikeluarkan, yang menukar model resapan video untuk denoising berulang, yang memakan masa dan memerlukan banyak pengiraan.
Mari kita lihat dahulu kesan animasi yang dihasilkan.
Gaya cyberpunk mudah dikawal Budak itu memakai fon kepala dan berdiri di jalan bandar neon:
Gambar
Gaya realistik juga boleh digunakan, pasangan pengantin sedang berpelukan, memegang sejambak yang halus. dalam Menyaksikan cinta di bawah tembok batu purba:
gambar
Gaya fiksyen sains, dan juga mempunyai rasa pencerobohan makhluk asing ke bumi:
gambar
The MSVnimateLCtM, The MSVnimate Universiti China Hong Kong, Dicadangkan bersama oleh penyelidik dari Avolution AI, Makmal Kepintaran Buatan Shanghai dan Institut Penyelidikan SenseTime. . SVD Lebih pantas dan lebih cekap:
Gambar
Pada masa ini, kod AnimateLCM akan menjadi sumber terbuka dan akan ada demo dalam talian yang tersedia untuk permainan percubaan. Mulakan dan cuba demoSeperti yang anda lihat daripada antara muka demo, AnimateLCM pada masa ini mempunyai tiga versi AnimateLCM-SVD-xt adalah untuk penjanaan imej kepada video secara umum; -i2v adalah untuk penjanaan Imej kepada video yang diperibadikan.
Pictures
Di bawah ialah kawasan konfigurasi di mana anda boleh memilih model Dreambooth asas atau model LoRA, dan melaraskan nilai alfa LoRA melalui peluncur. . Gambar
Mari kita mulakan Selepas mencubanya, perkataan gesaan ialah "awan di langit", tetapan parameter adalah seperti yang ditunjukkan di atas, dan langkah pensampelan hanya 4 langkah, kesan yang dihasilkan adalah seperti ini:gambar
Langkah pensampelan ialah 25 langkah Apabila digesa dengan perkataan "budak lelaki memegang arnab", kesannya adalah seperti berikut:Gambar
Mari kita lihat kesan paparan rasmi sekali lagi. Perbandingan kesan 2 langkah, 4 langkah dan 8 langkah adalah seperti berikut:gambar
Semakin banyak langkah, semakin baik kualiti animasi Hanya 4 langkah AnimateLCM boleh mencapai kesetiaan tinggi:.
setiap Semua gaya boleh direalisasikan:gambar
Gambar
Berhati-hati bahawa walaupun model resapan video telah mendapat perhatian yang semakin meningkat kerana keupayaannya untuk menghasilkan video yang koheren dan berkeyakinan tinggi, salah satu kesukaran ialah proses denoising berulang bukan sahaja memakan masa tetapi juga intensif secara pengiraan, yang mengehadkannya. skop permohonan.
Dalam karya ini AnimateLCM, para penyelidik telah diilhamkan oleh Model Konsistensi (CM), yang memudahkan model penyebaran imej yang telah terlatih untuk mengurangkan langkah-langkah yang diperlukan untuk pensampelan dan berjaya menskalakan penjanaan imej bersyarat Model Ketekalan Terpendam (LCM ) .
Gambar
Secara khusus, penyelidik mencadangkan strategi Pembelajaran Konsistensi Terpisah(Pembelajaran Konsistensi Terpisah).
Mula-mula menyaring model resapan stabil ke dalam model ketekalan imej pada set data teks imej berkualiti tinggi, dan kemudian lakukan penyulingan konsisten pada data video untuk mendapatkan model ketekalan video. Strategi ini meningkatkan kecekapan latihan dengan latihan secara berasingan di peringkat spatial dan temporal.
Gambar
Selain itu, untuk melaksanakan pelbagai fungsi penyesuai plug-and-play (contohnya, menggunakan ControlNet untuk mencapai penjanaan yang boleh dikawal) dalam komuniti Stable Diffusion, para penyelidik juga mencadangkan Teacher - Percuma Sesuaikan strategi (Penyesuaian Tanpa Guru) untuk menjadikan penyesuai kawalan sedia ada lebih konsisten dengan model ketekalan dan mencapai penjanaan video terkawal yang lebih baik.
Gambar
Kedua-dua eksperimen kuantitatif dan kualitatif membuktikan keberkesanan kaedah tersebut. Dalam tugas penjanaan teks-ke-video tangkapan sifar pada set data UCF-101, AnimateLCM mencapai prestasi terbaik pada kedua-dua metrik FVD dan CLIPSIM.Picture
Picture
Kajian Ablasi mengesahkan keberkesanan pembelajaran konsisten yang dipisahkan dan strategi permulaan khusus:
1]https:// animatelcm. github.io/
Atas ialah kandungan terperinci Hasilkan 25 bingkai animasi berkualiti tinggi dalam dua langkah, dikira sebagai 8% daripada SVD |. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!