ICLR 2024 Spotlight |
Pengarang |. Pengfei Zheng
Unit |USTC, HKBU TMLR Group
Dalam beberapa tahun kebelakangan ini, perkembangan pesat AI generatif telah menyuntik kuasa yang menarik perhatian ke dalam bidang yang menarik perhatian. dan penjanaan video. Teras teknik ini terletak pada aplikasi model resapan. Model resapan mula-mula menukar secara beransur-ansur gambar kepada hingar Gaussian dengan mentakrifkan proses ke hadapan yang menambah hingar secara berterusan, dan kemudian secara beransur-ansur menyahbunyi hingar Gaussian melalui proses terbalik dan mengubahnya menjadi gambar yang jelas untuk mendapatkan sampel sebenar. Model pembezaan biasa resapan digunakan untuk menginterpolasi nilai imej yang dijana, yang mempunyai potensi aplikasi yang hebat dalam menjana video dan beberapa kreatif pengiklanan. Walau bagaimanapun, kami mendapati bahawa apabila kaedah ini digunakan pada imej semula jadi, kesan imej interpolasi selalunya tidak memuaskan.
Secara amnya, model resapan mengambil sampel hingar Gaussian dan kemudiannya secara beransur-ansur menolaknya untuk menjana imej berkualiti tinggi. Kualiti imej interpolasi yang rendah bermakna pembolehubah asasnya tidak lagi mengikut taburan Gaussian yang kami jangkakan. Untuk meningkatkan kualiti imej yang diinterpolasi, kita perlu memastikan bahawa pembolehubah asas diambil dengan lebih dekat daripada taburan Gaussian. Menskala dan mengimbangi pembolehubah pendam secara langsung akan merosakkan imej yang terhasil dengan teruk, dan untuk mengekalkan maklumat imej asal, kami tidak boleh mengubah suai pembolehubah pendam terlalu banyak. Oleh itu, ia menjadi masalah yang sukar untuk meningkatkan kualiti imej interpolasi tanpa memusnahkan pembolehubah asas sebanyak mungkin.
Kami mula-mula menukar tahap hingar pembolehubah pendam untuk menganalisis jenis pembolehubah pendam yang boleh dipulihkan kepada gambar berkualiti tinggi oleh model resapan, dan menggabungkan kaedah SDEdit untuk memperkenalkan hingar Gaussian untuk meningkatkan kualiti gambar yang diinterpolasi. Pengenalan bunyi Gaussian akan membawa maklumat tambahan. Tambahan pula, kami menganalisis potensi ortogonal dalam ruang dimensi tinggi, yang menyediakan asas untuk pendekatan kami. Kami menggabungkan kaedah interpolasi linear sfera dan kaedah memperkenalkan bunyi secara langsung untuk mencadangkan kaedah interpolasi baharu: mengekang nilai ekstrem yang berpotensi, menggabungkannya dengan hingar Gaussian yang kecil untuk menjadikannya lebih dekat dengan pengedaran yang dijangkakan, dan memperkenalkan gambar asal untuk mengurangkan Maklumat masalah kerugian. Menggunakan kaedah interpolasi ini, kami boleh meningkatkan hasil interpolasi imej semula jadi dengan ketara sambil mengekalkan maklumat imej asal.
Seterusnya, saya akan berkongsi secara ringkas hasil penyelidikan kami dengan anda. .
Pautan kod:
https://www.php.cn/link/fc9e5c39356354a60d33ca59499913ca
Kami menggunakan kaedah ini pada gambar semula jadi. Ia boleh diperhatikan daripada Rajah 2 bahawa apabila menggunakan kaedah interpolasi linear sfera pada gambar semula jadi, kesan interpolasi menurun dengan ketara.
Rajah 2: Perbandingan kesan interpolasi antara gambar semula jadi dan gambar yang dijanakan gambar yang dihasilkan. Adalah diperhatikan bahawa hanya apabila tahap hingar Gaussian sepadan dengan tahap denoising (imej tengah), imej berkualiti tinggi diperolehi. Jika tahap hingar lebih rendah daripada tahap denosing (imej kanan), atau lebih tinggi daripada tahap denosing (imej kiri), kualiti imej yang dihasilkan akan berkurangan. Kami menggunakan Teorem 1 untuk menerangkan fenomena ini:
Teorem 1 menerangkan ciri taburan bunyi Gaussian standard dalam ruang dimensi tinggi: ia tertumpu terutamanya pada hipersfera. Di bahagian dalam hipersfera ini, walaupun ketumpatan kebarangkalian mata adalah agak tinggi, sumbangan keseluruhannya tidak ketara disebabkan oleh isipadu kecil yang didudukinya manakala di luar hipersfera, walaupun isipadu mata adalah lebih besar, disebabkan oleh kebarangkalian Ketumpatan mereput dengan cepat mengikut jarak, jadi sumbangan dari titik luar juga boleh diabaikan. Oleh itu, apabila melatih model resapan, pembolehubah terpendam yang kita perhatikan terutamanya tertumpu pada hipersfera, dan pembolehubah terpendam di dalam dan di luar hipersfera sukar untuk didenoise dengan berkesan atas sebab-sebab ini. . Khususnya, pembolehubah terpendam imej ini mungkin mengandungi hingar Gaussian di atas atau di bawah julat keupayaan denoising model. Walau bagaimanapun, keupayaan model resapan adalah terhad terutamanya untuk memulihkan bunyi Gaussian pada hipersfera yang diterangkan dalam Teorem 1. Untuk hingar di luar julat ini, model selalunya tidak dapat mengendalikannya dengan berkesan. Oleh itu, apabila melakukan interpolasi imej, imej interpolasi berkualiti rendah sering dihasilkan.
Memperkenalkan hingar
Rajah 5: Secara langsung memperkenalkan interpolasi hingar
Untuk meningkatkan kualiti gambar dan menjadikan pembolehubah terpendam lebih dekat dengan hipersfera, kami menggunakan kaedah yang digabungkan dengan SDEdit[3]. Khususnya, kami terus menambah hingar Gaussian standard pada imej, kemudian melakukan interpolasi, dan akhirnya melakukan denoising. Ia boleh dilihat dengan jelas daripada Rajah 5 bahawa kaedah ini meningkatkan kualiti imej interpolasi dengan ketara. Walau bagaimanapun, perlu diingat bahawa pendekatan ini juga memperkenalkan beberapa maklumat tambahan seperti yang ditunjukkan dalam rajah.
Kaedah
Rajah 6: Reka bentuk keseluruhan NoiseDiffusion
Untuk meningkatkan kualiti gambar dan mengurangkan kehilangan maklumat sebanyak mungkin, kami secara inovatif menggabungkan kaedah interpolasi linear sfera dengan kaedah interpolasi, yang secara langsung cadangkan kaedah NoiseDiffusion baharu. Seperti yang ditunjukkan dalam Rajah 6, reka bentuk keseluruhan NoiseDiffusion bukan sahaja mempertimbangkan pengekalan maklumat semasa proses interpolasi, tetapi juga meningkatkan kualiti gambar dengan memperkenalkan hingar, mencapai keseimbangan yang berkesan antara kedua-duanya. Seterusnya, kami akan menghuraikan idea reka bentuk NoiseDiffusion.
Reka Bentuk 1:
Rajah 7: Mengekang nilai ekstrem pembolehubah pendam
Menurut statistik, komponen hingar di luar julat tertentu boleh dianggap sebagai outlier. Digabungkan dengan Rajah 3, kami mendapati bahawa hingar Gaussian yang lebih tinggi daripada tahap denoising akan menghasilkan hingar yang jelas, yang hampir sama dengan tompok warna yang tidak normal pada hasil interpolasi gambar semula jadi Oleh itu, kami mempunyai sebab untuk mempercayai bahawa ia disebabkan oleh nilai melampau pembolehubah terpendam Penghasilan tompok warna yang tidak normal ini. Berdasarkan analisis ini, kami mengenakan kekangan pada nilai ekstrem pembolehubah terpendam untuk mengawal kesan bunyi yang tidak normal ini. Seperti yang dapat dilihat dari Rajah 7, dengan mengekang nilai ekstrem pembolehubah terpendam, kami telah meningkatkan kualiti imej dengan banyak.
Reka Bentuk 2:
Rajah 8: Memperkenalkan maklumat imej asal
Apabila mengenakan kekangan pada pembolehubah pendam, kami mungkin secara tidak sengaja menjejaskan beberapa komponen biasa, mengakibatkan kehilangan maklumat. Untuk mengimbangi potensi kehilangan maklumat ini, kami memperkenalkan maklumat imej asal sebagai tambahan. Seperti yang ditunjukkan dalam Rajah 8, selepas memperkenalkan maklumat imej asal, kualiti imej interpolasi telah dipertingkatkan dengan ketara. Ini menunjukkan bahawa maklumat imej asal memainkan peranan penting dalam mengimbangi kehilangan maklumat. Dengan menggabungkan kekangan pembolehubah terpendam dan tambahan maklumat imej asal, kami boleh mengurangkan kehilangan maklumat sambil memastikan kualiti imej, dan mencapai kesan interpolasi yang lebih tepat dan semula jadi.
Reka bentuk 3:
Rajah 9: Memperkenalkan hingar Gaussian dengan saiz yang berbeza
Rajah 10: Digabungkan dengan Reka Bentuk 1 untuk mengurangkan jumlah hingar Gaussian yang diperkenalkan
Seperti yang dapat dilihat dari Rajah 9, apabila kami meningkatkan jumlah Gaussian secara beransur-ansur , gambar interpolasi Kualiti telah dipertingkatkan dengan ketara. Walau bagaimanapun, peningkatan ini tidak datang tanpa kos, kerana jumlah bunyi meningkat, begitu juga pengenalan maklumat tambahan. Dalam proses interpolasi sebenar, untuk meminimumkan pengenalan maklumat tambahan sambil memenuhi keperluan kualiti, kami menggabungkan strategi yang dinyatakan sebelum ini untuk mengurangkan secara berkesan jumlah hingar Gaussian yang perlu diperkenalkan (Rajah 10), dengan itu mengekalkan Maklumat tentang imej asal.
Eksperimen
Rujukan
[1 ] Lagu Yang, Jascha Sohl-Dickstein, Diederik P. Kingma, Abhishek Kumar, Stefano Ermon, dan Ben Poole berdasarkan pemodelan generatif melalui persamaan pembezaan stokastik dalam ICLR, 2021.
[2] Jiaming Song, Chenlin Meng dan Stefano Ermon model tersirat penyebaran. Dalam ICLR, 2021.
[3] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu dan Stefano Ermon.
Sdedit: Sintesis imej terpandu dan penyuntingan dengan pembezaan stokastik persamaan. Dalam ICLR, 2022.
[4]Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser dan Bjorn Ommer sintesis imej beresolusi tinggi dengan penyebaran model terpendam, 2022.
[5 ] Weihao. Yulun Zhang, Yujiu Yang, Jing-Hao Xue, Bolei Zhou, dan Ming-Hsuan Yang Gan
inversi: Tinjauan IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022.
Pengenalan kepada kumpulan penyelidikan. Kumpulan Penyelidikan Pembelajaran Mesin dan Penaakulan yang Boleh Dipercayai (Kumpulan TMLR) Hong Kong Baptist University terdiri daripada beberapa profesor muda, penyelidik pasca doktoral, pelajar kedoktoran, pelajar kedoktoran pelawat dan pembantu penyelidik Kumpulan penyelidikan itu bergabung dengan Jabatan Sains Komputer , Fakulti Sains. Kumpulan penyelidikan pakar dalam pembelajaran perwakilan boleh dipercayai, pembelajaran boleh dipercayai berdasarkan penaakulan sebab, model asas yang boleh dipercayai dan algoritma lain yang berkaitan, teori dan reka bentuk sistem, serta aplikasi dalam sains semula jadi Arah penyelidikan khusus dan hasil yang berkaitan boleh didapati pada kumpulan Github (https://github.com/tmlr-group). Pasukan penyelidikan dibiayai oleh dana penyelidikan kerajaan dan dana penyelidikan industri, seperti Hong Kong Research Grants Council Outstanding Young Scholars Program, National Natural Science Foundation of China projek am dan projek belia, serta dana penyelidikan saintifik daripada Microsoft, NVIDIA, Baidu, Alibaba, Tencent dan syarikat lain. Profesor muda dan penyelidik kanan bekerjasama, dan sumber pengkomputeran GPU adalah mencukupi. Ia mempunyai pengambilan jangka panjang ramai penyelidik pasca doktoral, pelajar kedoktoran, pembantu penyelidik dan pelatih penyelidikan. Di samping itu, kumpulan itu juga mengalu-alukan permohonan daripada felo pasca doktoral lawatan yang dibiayai sendiri, pelajar kedoktoran dan pembantu penyelidik untuk sekurang-kurangnya 3-6 bulan, dan akses jauh disokong. Pelajar yang berminat sila hantar resume dan pelan penyelidikan awal anda ke alamat e-mel (bhanml@comp.hkbu.edu.hk). 🎜Atas ialah kandungan terperinci ICLR 2024 Spotlight |. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Pelaburan Grayscale: Saluran untuk pelabur institusi untuk memasuki pasaran cryptocurrency. Syarikat itu telah melancarkan beberapa amanah crypto, yang telah menarik perhatian pasaran yang meluas, tetapi kesan dana ini pada harga token berbeza dengan ketara. Artikel ini akan memperkenalkan secara terperinci beberapa dana amanah utama Grayscale. Dana Grayscale Major Crypto Trust yang boleh didapati dengan sekilas Pelaburan Grayscale (yang diasaskan oleh DigitalCurrencyGroup pada tahun 2013) menguruskan pelbagai dana amanah aset crypto, menyediakan pelabur institusi dan individu yang bernilai tinggi dengan saluran pelaburan yang mematuhi. Dana utamanya termasuk: Zcash (Zec), Sol,

Pemerhatian Mingguan: Perniagaan Menimbulkan Bitcoin - Perubahan Brewing Saya sering menunjukkan beberapa trend pasaran yang diabaikan dalam memo mingguan. Langkah MicroStrategy adalah contoh yang jelas. Ramai orang mungkin berkata, "MicroStrategy dan Michaelsaylor sudah terkenal, apa yang akan anda perhatikan?" Pandangan ini adalah satu sisi. Penyelidikan mendalam mengenai penggunaan Bitcoin sebagai aset rizab dalam beberapa bulan kebelakangan ini menunjukkan bahawa ini bukan kes terpencil, tetapi trend utama yang muncul. Saya meramalkan bahawa dalam 12-18 bulan akan datang, beratus-ratus syarikat akan mengikutinya dan membeli jumlah besar bitcoin

Penyelidik dari Universiti Shanghai Jiaoto, Shanghai Ailab dan Universiti Cina Hong Kong telah melancarkan projek sumber terbuka Visual-RFT (Visual Fine Fine Tuning), yang hanya memerlukan sedikit data untuk meningkatkan prestasi model bahasa besar visual (LVLM). Visual-RFT bijak menggabungkan pendekatan pembelajaran tetulang berasaskan peraturan DeepSeek-R1 dengan paradigma penalaan Fine-Penalaan Terbuka (RFT) OpenAI, berjaya memperluaskan pendekatan ini dari medan teks ke medan visual. Dengan merancang ganjaran peraturan yang sepadan untuk tugas-tugas seperti subkategori visual dan pengesanan objek, Visual-RFT mengatasi batasan kaedah DeepSeek-R1 yang terhad kepada teks, penalaran matematik dan bidang lain, menyediakan cara baru untuk latihan LVLM. Vis

Perpustakaan yang digunakan untuk operasi nombor terapung dalam bahasa Go memperkenalkan cara memastikan ketepatannya ...

Perpustakaan mana yang dibangunkan oleh syarikat besar atau projek sumber terbuka yang terkenal? Semasa pengaturcaraan di GO, pemaju sering menghadapi beberapa keperluan biasa, ...

Penerangan Soalan: Bagaimana untuk mendapatkan data kawasan perkapalan versi luar negara? Adakah sumber sedia ada yang ada? Dapatkan tepat dalam e-dagang rentas sempadan atau perniagaan global ...

Giteepages Statik Laman Web Penggunaan Gagal: 404 Penyelesaian Masalah dan Resolusi Ralat Semasa Menggunakan Gitee ...

Binance Launchpool Analisis mendalam: Panduan perlombongan hasil tinggi dan penjelasan terperinci mengenai projek bio. Sebagai pertukaran cryptocurrency terbesar di dunia, Binance telah memilih projek berkualiti tinggi dengan Launchpool, menyediakan pelabur dengan perlombongan mudah dan peluang untuk mendapatkan token baru. Apa itu Binance Launchpool? Binance Launchpool adalah platform yang mendapat token baru secara percuma dengan menjanjikan mata wang yang ditentukan. Ini sama dengan langganan saham baru di pasaran saham, tetapi terdapat lebih sedikit peserta, persaingan yang lebih rendah, dan pelaburan kecil juga boleh mendapatkan pulangan yang tinggi.
