Model penyebaran telah mencapai kejayaan yang luar biasa dalam penjanaan imej, tetapi masih terdapat cabaran dalam menerapkannya pada resolusi super video. Resolusi super video memerlukan kesetiaan output dan ketekalan temporal, yang rumit oleh stokastik yang wujud dalam model penyebaran. Oleh itu, menggunakan model resapan secara berkesan pada resolusi super video kekal sebagai tugas yang mencabar.
Pasukan penyelidik dari S-Lab Universiti Teknologi Nanyang mencadangkan rangka kerja penyebaran terpendam berpandukan teks yang dipanggil Upscale-A-Video untuk resolusi super video. Rangka kerja memastikan ketekalan temporal melalui dua mekanisme utama. Pertama, pada skala tempatan, ia menyepadukan lapisan temporal ke dalam U-Net dan VAE-Decoder untuk mengekalkan konsistensi jujukan pendek. Kedua, pada skala global, rangka kerja ini memperkenalkan modul penyebaran terpendam berulang berpandukan aliran yang merambat dan menggabungkan laten sepanjang jujukan tanpa latihan, sekali gus meningkatkan kestabilan video secara keseluruhan. Cadangan rangka kerja ini menyediakan penyelesaian baharu untuk resolusi super video, dengan ketekalan temporal yang lebih baik dan kestabilan keseluruhan.
Alamat kertas: https://arxiv.org/abs/2312.06640
Upscale-A-Video memperoleh fleksibiliti yang hebat melalui paradigma penyebaran. Ia membenarkan penggunaan gesaan teks untuk membimbing penciptaan tekstur, dan tahap hingar boleh dilaraskan untuk mengimbangi kesetiaan dan kualiti antara pemulihan dan penjanaan. Ciri ini membolehkan teknologi memperhalusi butiran sambil mengekalkan maksud kandungan asal, menghasilkan hasil yang lebih tepat.
Hasil eksperimen menunjukkan bahawa Upscale-A-Video mengatasi kaedah sedia ada pada penanda aras sintetik dan dunia sebenar, mempersembahkan realisme visual yang mengagumkan dan ketekalan temporal.
Mari kita lihat beberapa contoh khusus Sebagai contoh, dengan bantuan Upscale-A-Video, "Famous Scenes from Huaguo Mountain" mempunyai versi definisi tinggi:
Berbanding dengan StableSR, Upscale-A. -Video membuat video Tekstur rambut tupai jelas kelihatan dalam:
Pengenalan Kaedah
Sesetengah kajian mengoptimumkan model resapan imej untuk menyesuaikan diri dengan tugasan video dengan memperkenalkan strategi ketekalan temporal. Strategi ini termasuk dua kaedah berikut: pertama, memperhalusi model video melalui lapisan temporal, seperti lilitan 3D dan perhatian temporal, untuk meningkatkan prestasi pemprosesan video. Kedua, mekanisme tangkapan sifar, seperti perhatian bingkai silang dan perhatian berpandukan aliran, digunakan untuk menyesuaikan model pra-terlatih untuk meningkatkan prestasi pada tugasan video. Pengenalan kaedah ini membolehkan model penyebaran imej mengendalikan tugas video dengan lebih baik, dengan itu meningkatkan kesan pemprosesan video.
Walaupun penyelesaian ini meningkatkan kestabilan video dengan ketara, dua isu utama masih wujud:
Kaedah semasa yang beroperasi dalam ciri U-Net atau ruang terpendam berjuang untuk mengekalkan konsistensi tahap rendah, dan isu seperti tekstur berkelip masih wujud .
Lapisan temporal sedia ada dan mekanisme perhatian hanya boleh mengenakan kekangan pada jujukan input tempatan yang pendek, mengehadkan keupayaannya untuk memastikan konsistensi temporal global dalam video yang lebih panjang.
Untuk menyelesaikan masalah ini, Upscale-A-Video mengguna pakai strategi global tempatan untuk mengekalkan konsistensi temporal dalam pembinaan semula video, memfokuskan pada tekstur halus dan konsistensi keseluruhan. Pada klip video tempatan, kajian ini meneroka menggunakan lapisan temporal tambahan pada data video untuk memperhalusi imej terlatih ×4 model resolusi super.
Secara khusus, dalam rangka kerja penyebaran terpendam, kajian ini mula-mula memperhalusi U-Net menggunakan lilitan 3D bersepadu dan lapisan perhatian temporal, dan kemudian menggunakan input berhawa dingin dan lilitan 3D untuk menala penyahkod VAE. Yang pertama mencapai kestabilan struktur jujukan tempatan dengan ketara, dan yang kedua meningkatkan lagi konsistensi tahap rendah dan mengurangkan kelipan tekstur. Pada skala global, kajian ini memperkenalkan modul perambatan terpendam berulang tanpa latihan berpandukan aliran yang melaksanakan perambatan bingkai demi bingkai dan gabungan terpendam dalam kedua-dua arah semasa inferens, mempromosikan kestabilan keseluruhan video panjang.
Model Upscale-A-Video boleh menggunakan gesaan teks sebagai syarat pilihan untuk membimbing model menghasilkan butiran yang lebih realistik dan berkualiti tinggi, seperti yang ditunjukkan dalam Rajah 1.
Upscale-A-Video membahagikan video kepada segmen dan memprosesnya menggunakan U-Net dengan lapisan temporal untuk mencapai konsistensi intra-segmen. Modul penyebaran terpendam berulang digunakan untuk meningkatkan konsistensi antara serpihan semasa penyebaran penghalusan global yang ditentukan pengguna. Akhir sekali, penyahkod VAE yang diperhalusi mengurangkan artifak kelipan dan mencapai konsistensi tahap rendah.
.Penilaian kualitatif. Kajian menunjukkan hasil visual untuk video sintetik dan dunia sebenar masing-masing dalam Rajah 4 dan 5. Upscale-A-Video dengan ketara mengatasi CNN sedia ada dan kaedah berasaskan resapan dalam kedua-dua penyingkiran artifak dan penjanaan butiran.
Atas ialah kandungan terperinci 'Pemandangan Terkenal dari Gunung Huaguo' mempunyai versi definisi tinggi dan NTU mencadangkan rangka kerja resolusi super video Upscale-A-Video. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!