Rumah Peranti teknologi AI Universiti Fudan dan Huawei Noah mencadangkan rangka kerja VidRD untuk mencapai penjanaan video berkualiti tinggi berulang

Universiti Fudan dan Huawei Noah mencadangkan rangka kerja VidRD untuk mencapai penjanaan video berkualiti tinggi berulang

Oct 20, 2023 pm 03:01 PM
data kereta api

Penyelidik dari Universiti Fudan dan Makmal Noah's Ark Huawei mencadangkan penyelesaian berulang untuk menghasilkan video berkualiti tinggi berdasarkan model penyebaran imej (LDM) - VidRD (Guna Semula dan Resap). Penyelesaian ini bertujuan untuk membuat penemuan dalam kualiti dan panjang jujukan video yang dijana, dan mencapai penjanaan jujukan panjang video yang berkualiti tinggi dan boleh dikawal. Ia berkesan mengurangkan masalah kegelisahan antara bingkai video yang dijana, mempunyai penyelidikan dan nilai praktikal yang tinggi, dan menyumbang kepada komuniti AIGC yang hangat semasa.

Latent Diffusion Model (LDM) ialah model generatif berdasarkan Denoising Autoencoder, yang boleh menjana sampel berkualiti tinggi daripada data yang dimulakan secara rawak dengan mengeluarkan bunyi secara beransur-ansur. Walau bagaimanapun, disebabkan oleh pengehadan pengiraan dan ingatan semasa latihan model dan inferens, satu LDM biasanya hanya boleh menjana bilangan bingkai video yang sangat terhad. Walaupun kerja sedia ada cuba menggunakan model ramalan yang berasingan untuk menjana lebih banyak bingkai video, ini juga memerlukan kos latihan tambahan dan menghasilkan jitter tahap bingkai.

Dalam kertas kerja ini, diilhamkan oleh kejayaan luar biasa model resapan terpendam (LDM) dalam sintesis imej, rangka kerja yang dipanggil "Guna Semula dan Resap", atau singkatannya VidRD, dicadangkan. Rangka kerja ini boleh menjana lebih banyak bingkai video selepas bilangan kecil bingkai video telah dijana oleh LDM, sekali gus menjana kandungan video yang lebih panjang, berkualiti tinggi dan pelbagai secara berulang. VidRD memuatkan model LDM imej pra-latihan untuk latihan yang cekap dan menggunakan rangkaian U-Net dengan maklumat temporal tambahan untuk penyingkiran hingar. . Projek Halaman utama: https://anonymous0x233.github.io/ReuseAndDiffuse/

Universiti Fudan dan Huawei Noah mencadangkan rangka kerja VidRD untuk mencapai penjanaan video berkualiti tinggi berulang

Sumbangan utama artikel ini adalah seperti berikut:

  • Untuk menghasilkan video yang lebih lancar, artikel ini mencadangkan kaedah berulang kaedah penjanaan "teks-ke-video" model LDM sedar masa. Kaedah ini boleh menjana lebih banyak bingkai video secara berulang dengan menggunakan semula ciri ruang terpendam bagi bingkai video yang telah dijana dan mengikuti proses resapan sebelumnya setiap kali.
  • Artikel ini mereka bentuk set kaedah pemprosesan data untuk menjana set data "teks-video" berkualiti tinggi. Untuk set data pengecaman tindakan sedia ada, kertas kerja ini menggunakan model bahasa besar berbilang modal untuk memberikan penerangan teks kepada video. Untuk data imej, kertas kerja ini menggunakan kaedah penskalaan dan terjemahan rawak untuk menghasilkan lebih banyak sampel latihan video.
  • Pada set data UCF-101, artikel ini mengesahkan dua penunjuk penilaian FVD dan IS serta hasil visualisasi menunjukkan bahawa berbanding dengan kaedah sedia ada, model VidRD mencapai hasil yang lebih baik. . untuk sintesis video berkualiti tinggi adalah cekap Dan pilih dengan bijak. Pada masa yang sama, pandangan ini disokong lagi oleh kerja penyelidikan seperti [1, 2]. Dalam konteks ini, model yang direka dengan teliti dalam artikel ini dibina berdasarkan model resapan stabil yang telah terlatih, belajar sepenuhnya daripada dan mewarisi ciri-ciri cemerlangnya. Ini termasuk pengekod auto variasi (VAE) untuk perwakilan terpendam yang tepat dan rangkaian U-Net yang menyahnosing yang berkuasa. Rajah 1 menunjukkan seni bina keseluruhan model dengan cara yang jelas dan intuitif.

Dalam reka bentuk model artikel ini, ciri yang ketara ialah penggunaan penuh berat model pra-latihan. Khususnya, kebanyakan lapisan rangkaian, termasuk komponen VAE dan lapisan upsampling dan downsampling U-Net, dimulakan menggunakan pemberat pra-latihan model resapan stabil. Strategi ini bukan sahaja mempercepatkan proses latihan model dengan ketara, tetapi juga memastikan model menunjukkan kestabilan dan kebolehpercayaan yang baik dari awal. Model kami boleh menjana bingkai tambahan secara berulang daripada klip video awal yang mengandungi sebilangan kecil bingkai dengan menggunakan semula ciri terpendam asal dan meniru proses penyebaran sebelumnya. Di samping itu, untuk pengekod auto yang digunakan untuk menukar antara ruang piksel dan ruang terpendam, kami menyuntik lapisan rangkaian berkaitan pemasaan ke dalam penyahkodnya dan memperhalusi lapisan ini untuk meningkatkan ketekalan temporal.

Untuk memastikan kesinambungan antara bingkai video, artikel ini menambahkan lapisan Temp-conv dan Temp-attn 3D pada model. Lapisan Temp-conv mengikuti 3D ResNet, struktur yang boleh melaksanakan operasi konvolusi 3D untuk menangkap korelasi spatial dan temporal untuk memahami perubahan dinamik dan kesinambungan pengagregatan jujukan video. Struktur Temp-Attn adalah serupa dengan Self-attention dan digunakan untuk menganalisis dan memahami hubungan antara bingkai dalam jujukan video, membolehkan model menyegerakkan maklumat yang sedang berjalan antara bingkai dengan tepat. Parameter ini dimulakan secara rawak semasa latihan dan direka bentuk untuk menyediakan model dengan pemahaman dan pengekodan struktur temporal. Di samping itu, untuk menyesuaikan diri dengan struktur model, input data juga telah disesuaikan dan diselaraskan dengan sewajarnya.

Universiti Fudan dan Huawei Noah mencadangkan rangka kerja VidRD untuk mencapai penjanaan video berkualiti tinggi berulang

Rajah 2. Kaedah pembinaan set data latihan "teks-video" berkualiti tinggi yang dicadangkan dalam artikel ini# 🎜🎜#

Untuk melatih model VidRD, artikel ini mencadangkan kaedah membina set data latihan "text-video" berskala besar, seperti yang ditunjukkan dalam Rajah 2. Ini kaedah boleh mengendalikan data "imej teks" " dan data "video teks" tanpa penerangan. Selain itu, untuk mencapai penjanaan video berkualiti tinggi, artikel ini juga cuba mengalih keluar tera air daripada data latihan.

Walaupun set data perihalan video berkualiti tinggi agak terhad dalam pasaran semasa, sejumlah besar set data klasifikasi video wujud. Set data ini mempunyai kandungan video yang kaya dan setiap video disertakan dengan label klasifikasi. Contohnya, Moments-In-Time, Kinetics-700 dan VideoLT ialah tiga set data klasifikasi video berskala besar yang mewakili. Kinetics-700 merangkumi 700 kategori tindakan manusia dan mengandungi lebih 600,000 klip video. Moments-In-Time termasuk 339 kategori tindakan, dengan jumlah lebih daripada satu juta klip video. VideoLT, sebaliknya, mengandungi 1,004 kategori dan 250,000 video panjang yang tidak diedit.

Untuk menggunakan sepenuhnya data video sedia ada, artikel ini cuba menganotasi video ini secara automatik dengan lebih terperinci. Artikel ini menggunakan model bahasa besar berbilang mod seperti BLIP-2 dan MiniGPT4 Dengan menyasarkan bingkai utama dalam video dan menggabungkan label klasifikasi asalnya, artikel ini mereka bentuk banyak Gesaan untuk menjana anotasi melalui model soal jawab. Kaedah ini bukan sahaja meningkatkan maklumat pertuturan data video, tetapi juga boleh membawa penerangan video yang lebih komprehensif dan terperinci kepada video sedia ada tanpa penerangan terperinci, dengan itu mencapai penjanaan teg video yang lebih kaya untuk membantu model VidRD membawa kesan latihan yang lebih baik.

Selain itu, untuk data imej yang sangat kaya sedia ada, artikel ini juga mereka bentuk kaedah terperinci untuk menukar data imej kepada format video untuk latihan. Operasi khusus adalah untuk menyorot dan mengezum pada kedudukan imej yang berbeza pada kelajuan yang berbeza, dengan itu memberikan setiap imej bentuk persembahan dinamik yang unik dan mensimulasikan kesan menggerakkan kamera untuk menangkap objek pegun dalam kehidupan sebenar. Melalui kaedah ini, data imej sedia ada boleh digunakan dengan berkesan untuk latihan video.

Paparan kesan

Teks penerangan ialah: "Selang masa di tanah salji dengan aurora di langit .", "Lilin sedang menyala.", "Puting beliung epik menyerang di atas bandar yang bercahaya pada waktu malam.", dan "Pemandangan dari udara pantai berpasir putih di tepi laut yang indah." Lebih banyak visualisasi boleh didapati di halaman utama projek.

Universiti Fudan dan Huawei Noah mencadangkan rangka kerja VidRD untuk mencapai penjanaan video berkualiti tinggi berulang

Rajah 3. Perbandingan visual kesan penjanaan dengan kaedah sedia ada #🎜🎜🎜##🎜🎜 🎜#Akhirnya, seperti yang ditunjukkan dalam Rajah 3, perbandingan visual hasil yang dihasilkan dalam artikel ini dengan kaedah sedia ada Make-A-Video [3] dan Imagen Video [4] menunjukkan bahawa model dalam artikel ini mempunyai kualiti yang lebih baik.

Atas ialah kandungan terperinci Universiti Fudan dan Huawei Noah mencadangkan rangka kerja VidRD untuk mencapai penjanaan video berkualiti tinggi berulang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Arahan sembang dan cara menggunakannya
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Gunakan ddrescue untuk memulihkan data pada Linux Gunakan ddrescue untuk memulihkan data pada Linux Mar 20, 2024 pm 01:37 PM

DDREASE ialah alat untuk memulihkan data daripada fail atau peranti sekat seperti cakera keras, SSD, cakera RAM, CD, DVD dan peranti storan USB. Ia menyalin data dari satu peranti blok ke peranti lain, meninggalkan blok data yang rosak dan hanya memindahkan blok data yang baik. ddreasue ialah alat pemulihan yang berkuasa yang automatik sepenuhnya kerana ia tidak memerlukan sebarang gangguan semasa operasi pemulihan. Selain itu, terima kasih kepada fail peta ddasue, ia boleh dihentikan dan disambung semula pada bila-bila masa. Ciri-ciri utama lain DDREASE adalah seperti berikut: Ia tidak menimpa data yang dipulihkan tetapi mengisi jurang sekiranya pemulihan berulang. Walau bagaimanapun, ia boleh dipotong jika alat itu diarahkan untuk melakukannya secara eksplisit. Pulihkan data daripada berbilang fail atau blok kepada satu

Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Apr 03, 2024 pm 12:04 PM

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Kelajuan Internet Data Selular Perlahan pada iPhone: Pembetulan Kelajuan Internet Data Selular Perlahan pada iPhone: Pembetulan May 03, 2024 pm 09:01 PM

Menghadapi ketinggalan, sambungan data mudah alih perlahan pada iPhone? Biasanya, kekuatan internet selular pada telefon anda bergantung pada beberapa faktor seperti rantau, jenis rangkaian selular, jenis perayauan, dsb. Terdapat beberapa perkara yang boleh anda lakukan untuk mendapatkan sambungan Internet selular yang lebih pantas dan boleh dipercayai. Betulkan 1 – Paksa Mulakan Semula iPhone Kadangkala, paksa memulakan semula peranti anda hanya menetapkan semula banyak perkara, termasuk sambungan selular. Langkah 1 – Hanya tekan kekunci naikkan kelantangan sekali dan lepaskan. Seterusnya, tekan kekunci Turun Kelantangan dan lepaskannya semula. Langkah 2 - Bahagian seterusnya proses adalah untuk menahan butang di sebelah kanan. Biarkan iPhone selesai dimulakan semula. Dayakan data selular dan semak kelajuan rangkaian. Semak semula Betulkan 2 – Tukar mod data Walaupun 5G menawarkan kelajuan rangkaian yang lebih baik, ia berfungsi lebih baik apabila isyarat lemah

Versi Kuaishou Sora 'Ke Ling' dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat Versi Kuaishou Sora 'Ke Ling' dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat Jun 11, 2024 am 09:51 AM

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Apr 29, 2024 pm 06:55 PM

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

See all articles