


'Pemandangan Terkenal dari Gunung Huaguo' mempunyai versi definisi tinggi dan NTU mencadangkan rangka kerja resolusi super video Upscale-A-Video
Model penyebaran telah mencapai kejayaan yang luar biasa dalam penjanaan imej, tetapi masih terdapat cabaran dalam menerapkannya pada resolusi super video. Resolusi super video memerlukan kesetiaan output dan ketekalan temporal, yang rumit oleh stokastik yang wujud dalam model penyebaran. Oleh itu, menggunakan model resapan secara berkesan pada resolusi super video kekal sebagai tugas yang mencabar.
Pasukan penyelidik dari S-Lab Universiti Teknologi Nanyang mencadangkan rangka kerja penyebaran terpendam berpandukan teks yang dipanggil Upscale-A-Video untuk resolusi super video. Rangka kerja memastikan ketekalan temporal melalui dua mekanisme utama. Pertama, pada skala tempatan, ia menyepadukan lapisan temporal ke dalam U-Net dan VAE-Decoder untuk mengekalkan konsistensi jujukan pendek. Kedua, pada skala global, rangka kerja ini memperkenalkan modul penyebaran terpendam berulang berpandukan aliran yang merambat dan menggabungkan laten sepanjang jujukan tanpa latihan, sekali gus meningkatkan kestabilan video secara keseluruhan. Cadangan rangka kerja ini menyediakan penyelesaian baharu untuk resolusi super video, dengan ketekalan temporal yang lebih baik dan kestabilan keseluruhan.
Alamat kertas: https://arxiv.org/abs/2312.06640
Upscale-A-Video memperoleh fleksibiliti yang hebat melalui paradigma penyebaran. Ia membenarkan penggunaan gesaan teks untuk membimbing penciptaan tekstur, dan tahap hingar boleh dilaraskan untuk mengimbangi kesetiaan dan kualiti antara pemulihan dan penjanaan. Ciri ini membolehkan teknologi memperhalusi butiran sambil mengekalkan maksud kandungan asal, menghasilkan hasil yang lebih tepat.
Hasil eksperimen menunjukkan bahawa Upscale-A-Video mengatasi kaedah sedia ada pada penanda aras sintetik dan dunia sebenar, mempersembahkan realisme visual yang mengagumkan dan ketekalan temporal.
Mari kita lihat beberapa contoh khusus Sebagai contoh, dengan bantuan Upscale-A-Video, "Famous Scenes from Huaguo Mountain" mempunyai versi definisi tinggi:

Berbanding dengan StableSR, Upscale-A. -Video membuat video Tekstur rambut tupai jelas kelihatan dalam:

Pengenalan Kaedah
Sesetengah kajian mengoptimumkan model resapan imej untuk menyesuaikan diri dengan tugasan video dengan memperkenalkan strategi ketekalan temporal. Strategi ini termasuk dua kaedah berikut: pertama, memperhalusi model video melalui lapisan temporal, seperti lilitan 3D dan perhatian temporal, untuk meningkatkan prestasi pemprosesan video. Kedua, mekanisme tangkapan sifar, seperti perhatian bingkai silang dan perhatian berpandukan aliran, digunakan untuk menyesuaikan model pra-terlatih untuk meningkatkan prestasi pada tugasan video. Pengenalan kaedah ini membolehkan model penyebaran imej mengendalikan tugas video dengan lebih baik, dengan itu meningkatkan kesan pemprosesan video.
Walaupun penyelesaian ini meningkatkan kestabilan video dengan ketara, dua isu utama masih wujud:
Kaedah semasa yang beroperasi dalam ciri U-Net atau ruang terpendam berjuang untuk mengekalkan konsistensi tahap rendah, dan isu seperti tekstur berkelip masih wujud .
Lapisan temporal sedia ada dan mekanisme perhatian hanya boleh mengenakan kekangan pada jujukan input tempatan yang pendek, mengehadkan keupayaannya untuk memastikan konsistensi temporal global dalam video yang lebih panjang.
Untuk menyelesaikan masalah ini, Upscale-A-Video mengguna pakai strategi global tempatan untuk mengekalkan konsistensi temporal dalam pembinaan semula video, memfokuskan pada tekstur halus dan konsistensi keseluruhan. Pada klip video tempatan, kajian ini meneroka menggunakan lapisan temporal tambahan pada data video untuk memperhalusi imej terlatih ×4 model resolusi super.
Secara khusus, dalam rangka kerja penyebaran terpendam, kajian ini mula-mula memperhalusi U-Net menggunakan lilitan 3D bersepadu dan lapisan perhatian temporal, dan kemudian menggunakan input berhawa dingin dan lilitan 3D untuk menala penyahkod VAE. Yang pertama mencapai kestabilan struktur jujukan tempatan dengan ketara, dan yang kedua meningkatkan lagi konsistensi tahap rendah dan mengurangkan kelipan tekstur. Pada skala global, kajian ini memperkenalkan modul perambatan terpendam berulang tanpa latihan berpandukan aliran yang melaksanakan perambatan bingkai demi bingkai dan gabungan terpendam dalam kedua-dua arah semasa inferens, mempromosikan kestabilan keseluruhan video panjang.
Model Upscale-A-Video boleh menggunakan gesaan teks sebagai syarat pilihan untuk membimbing model menghasilkan butiran yang lebih realistik dan berkualiti tinggi, seperti yang ditunjukkan dalam Rajah 1.

Upscale-A-Video membahagikan video kepada segmen dan memprosesnya menggunakan U-Net dengan lapisan temporal untuk mencapai konsistensi intra-segmen. Modul penyebaran terpendam berulang digunakan untuk meningkatkan konsistensi antara serpihan semasa penyebaran penghalusan global yang ditentukan pengguna. Akhir sekali, penyahkod VAE yang diperhalusi mengurangkan artifak kelipan dan mencapai konsistensi tahap rendah.
.

Penilaian kualitatif. Kajian menunjukkan hasil visual untuk video sintetik dan dunia sebenar masing-masing dalam Rajah 4 dan 5. Upscale-A-Video dengan ketara mengatasi CNN sedia ada dan kaedah berasaskan resapan dalam kedua-dua penyingkiran artifak dan penjanaan butiran.
Atas ialah kandungan terperinci 'Pemandangan Terkenal dari Gunung Huaguo' mempunyai versi definisi tinggi dan NTU mencadangkan rangka kerja resolusi super video Upscale-A-Video. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

Tunjukkan rantai sebab kepada LLM dan ia mempelajari aksiom. AI sudah pun membantu ahli matematik dan saintis menjalankan penyelidikan Contohnya, ahli matematik terkenal Terence Tao telah berulang kali berkongsi pengalaman penyelidikan dan penerokaannya dengan bantuan alatan AI seperti GPT. Untuk AI bersaing dalam bidang ini, keupayaan penaakulan sebab yang kukuh dan boleh dipercayai adalah penting. Penyelidikan yang akan diperkenalkan dalam artikel ini mendapati bahawa model Transformer yang dilatih mengenai demonstrasi aksiom transitiviti sebab pada graf kecil boleh digeneralisasikan kepada aksiom transitiviti pada graf besar. Dalam erti kata lain, jika Transformer belajar untuk melakukan penaakulan sebab yang mudah, ia boleh digunakan untuk penaakulan sebab yang lebih kompleks. Rangka kerja latihan aksiomatik yang dicadangkan oleh pasukan adalah paradigma baharu untuk pembelajaran penaakulan sebab berdasarkan data pasif, dengan hanya demonstrasi

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Pengenalan Dalam beberapa tahun kebelakangan ini, aplikasi model bahasa besar multimodal (MLLM) dalam pelbagai bidang telah mencapai kejayaan yang luar biasa. Walau bagaimanapun, sebagai model asas untuk banyak tugas hiliran, MLLM semasa terdiri daripada rangkaian Transformer yang terkenal, yang
