Dalam bidang lukisan AI, Komposer yang dicadangkan oleh Alibaba dan ControlNet berdasarkan penyebaran Stable yang dicadangkan oleh Stanford telah mengetuai pembangunan teori penjanaan imej yang boleh dikawal. Walau bagaimanapun, penerokaan industri penjanaan video terkawal masih agak kosong.
Berbanding dengan penjanaan imej, video boleh dikawal adalah lebih kompleks, kerana selain kebolehkawalan ruang kandungan video, ia juga perlu memenuhi kebolehkawalan dimensi masa. Berdasarkan ini, pasukan penyelidik Alibaba dan Ant Group memimpin dalam membuat percubaan dan mencadangkan VideoComposer, yang secara serentak mencapai kebolehkawalan video dalam kedua-dua dimensi masa dan ruang melalui paradigma penjanaan gabungan.
Beberapa masa lalu, Alibaba Model video Wensheng adalah rendah dan sumber terbuka dalam Komuniti Ajaib dan Wajah Pelukan Ia secara tidak dijangka menarik perhatian meluas daripada pembangun di dalam dan di luar negara malah mendapat sambutan daripada Musk sendiri selama beberapa hari berturut-turut di Komuniti Sihir Berpuluh-puluh ribu lawatan antarabangsa setiap hari.
Text-to-Video di Twitter
VideoComposer, sebagai pencapaian terbaru pasukan penyelidik, sekali lagi telah diterima secara meluas oleh tumpuan masyarakat antarabangsa.
VideoKomposer di Twitter
Malah, kebolehkawalan telah menjadi penanda aras yang lebih tinggi untuk penciptaan kandungan visual, yang telah mencapai kemajuan yang ketara dalam penjanaan imej tersuai, tetapi masih terdapat tiga masalah dalam bidang penjanaan video :
Sebelum ini, Komposer yang dicadangkan oleh Alibaba telah membuktikan bahawa komposisi amat membantu dalam meningkatkan kebolehkawalan penjanaan imej, dan kajian VideoComposer ini juga Berdasarkan generasi gabungan paradigma, ia meningkatkan fleksibiliti penjanaan video sambil menyelesaikan tiga cabaran utama di atas. Secara khusus, video diuraikan kepada tiga syarat panduan, iaitu keadaan teks, keadaan ruang dan keadaan pemasaan khusus video, dan kemudian Video LDM (Model Resapan Terpendam Video) dilatih berdasarkan ini. Khususnya, ia menggunakan Vektor Gerakan yang cekap sebagai syarat pemasaan eksplisit yang penting untuk mempelajari corak gerakan video, dan mereka bentuk pengekod keadaan spatiotemporal yang mudah dan berkesan STC-pengekod untuk memastikan kesinambungan spatiotemporal video dipacu keadaan. Dalam peringkat inferens, keadaan yang berbeza boleh digabungkan secara rawak untuk mengawal kandungan video.
Hasil eksperimen menunjukkan bahawa VideoComposer boleh mengawal corak masa dan ruang video secara fleksibel, seperti menjana video tertentu melalui gambar tunggal, lukisan tangan, dsb., malah boleh digunakan dengan mudah. arahan mudah yang dilukis dengan tangan. Kawal gaya pergerakan sasaran. Kajian ini secara langsung menguji prestasi VideoComposer pada 9 tugas klasik yang berbeza, dan kesemuanya mencapai keputusan yang memuaskan, membuktikan kepelbagaian VideoComposer.
Rajah (a-c) VideoComposer dapat menghasilkan video yang memenuhi teks, keadaan ruang dan temporal atau subset daripadanya; (d ) VideoComposer boleh menggunakan hanya dua pukulan untuk menghasilkan video yang memenuhi gaya Van Gogh, sambil memenuhi corak pergerakan yang dijangkakan (strok merah) dan corak bentuk (strok putih)
Video LDM Ruang tersembunyi. Video LDM mula-mula memperkenalkan pengekod pra-latihan untuk memetakan video input kepada perwakilan ruang terpendam, di mana . Kemudian, gunakan penyahkod terlatih D untuk memetakan ruang terpendam ke ruang piksel . Dalam VideoComposer, tetapan parameter ialah Model resapan. Untuk mempelajari pengedaran kandungan video sebenar , model resapan belajar untuk secara beransur-ansur denoise daripada hingar taburan normal untuk memulihkan kandungan visual sebenar Proses ini sebenarnya mensimulasikan rantai Markov boleh balik dengan panjang T=1000. Untuk melakukan proses boleh balik dalam ruang terpendam, Video LDM menyuntik hingar ke dalam untuk mendapatkan pembolehubah pendam yang disuntik hingar . Kemudian ia menggunakan fungsi denoising untuk bertindak pada dan keadaan input c, maka matlamat pengoptimuman adalah seperti berikut:
Untuk meneroka sepenuhnya penggunaan bias induktif tempatan secara spasial dan jujukan bias induktif temporal untuk denoising, VideoComposer akan Instantiated sebagai UNet 3D, menggunakan kedua-dua pengendali lilitan temporal dan mekanisme perhatian silang.
VideoKomposer
Kompos syarat. VideoComposer menguraikan video kepada tiga jenis keadaan berbeza, iaitu keadaan teks, keadaan spatial dan keadaan pemasaan kritikal, yang bersama-sama menentukan corak ruang dan temporal dalam video. VideoComposer ialah rangka kerja penjanaan video boleh gubah umum, jadi lebih banyak syarat tersuai boleh dimasukkan ke dalam VideoComposer berdasarkan aplikasi hiliran, tidak terhad kepada yang disenaraikan di bawah:
Imej Tunggal, pilih bingkai pertama video yang diberikan sebagai keadaan spatial untuk menjana imej kepada video , untuk menyatakan kandungan dan struktur video
Selepas memproses syarat melalui pengekod STC, urutan akhir keadaan mempunyai bentuk spatial yang sama seperti , dan kemudian digabungkan dengan penambahan mengikut unsur. Akhirnya, jujukan bersyarat yang digabungkan disatukan di sepanjang dimensi saluran sebagai isyarat kawalan. Untuk keadaan teks dan gaya, mekanisme perhatian silang digunakan untuk menyuntik teks dan panduan gaya. Latihan dan inferens
Strategi latihan dua peringkat.
Walaupun VideoComposer boleh dimulakan melalui pra-latihan imej LDM, yang boleh mengurangkan kesukaran latihan pada tahap tertentu, adalah sukar bagi model untuk mempunyai keupayaan untuk melihat dinamik temporal dan keupayaan untuk menjana berbilang keadaan pada masa yang sama, ini akan meningkatkan kesukaran melatih penjanaan video gabungan. Oleh itu, kajian ini menggunakan strategi pengoptimuman dua peringkat Pada peringkat pertama, model pada mulanya dilengkapi dengan keupayaan pemodelan masa melalui latihan T2V pada peringkat kedua, VideoComposer telah dioptimumkan melalui latihan gabungan untuk mencapai prestasi yang lebih baik.Penaakulan.
Semasa proses inferens, DDIM digunakan untuk meningkatkan kecekapan inferens. Dan gunakan panduan tanpa pengelas untuk memastikan hasil yang dihasilkan memenuhi syarat yang ditetapkan. Proses penjanaan boleh diformalkan seperti berikut:di mana ω ialah nisbah panduan c1 dan c2 ialah dua set syarat. Mekanisme panduan ini menilai set dua keadaan dan boleh memberikan model kawalan yang lebih fleksibel melalui kawalan intensiti.
Hasil eksperimenDalam penerokaan eksperimen, kajian ini membuktikan bahawa VideoComposer mempunyai rangka kerja generatif universal sebagai model bersatu dan mengesahkan keupayaan VideoComposer pada 9 tugasan klasik.Sebahagian daripada hasil penyelidikan ini adalah seperti berikut, dalam penjanaan gambar statik kepada video (Rajah 4), Inpainting video (Rajah 5), penjanaan lakaran statik kepada video (Rajah 6) , Video kawalan gerakan yang dilukis dengan tangan (Rajah 8) dan pemindahan gerakan (Rajah A12) boleh mencerminkan kelebihan penjanaan video yang boleh dikawal.
Maklumat awam menunjukkan bahawa penyelidikan Alibaba tentang model asas visual tertumpu terutamanya pada penyelidikan model perwakilan visual besar, model besar generatif visual dan aplikasi hilirannya menerbitkan lebih daripada 60 kertas CCF-A dalam bidang berkaitan dan memenangi lebih daripada 10 kejohanan antarabangsa dalam pelbagai pertandingan industri, seperti kaedah penjanaan imej terkawal Komposer, kaedah pra-latihan imej dan teks RA-CLIP dan RLEG, dan panjang yang tidak dipotong. Video pembelajaran penyeliaan sendiri HiCo/HiCo++, kaedah penjanaan muka bercakap LipFormer, dsb. semuanya datang daripada pasukan ini.
Atas ialah kandungan terperinci Penjanaan video dengan masa dan ruang yang boleh dikawal telah menjadi kenyataan, dan VideoComposer model berskala besar baru Alibaba telah menjadi popular. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!