Pada tahun 2015, telah dicadangkan dalam artikel Deep Unsupervised Learning menggunakan Nonequilibrium Thermodynamics bahawa model generatif pada masa itu, seperti VAE, mempunyai Kesukaran besar. Model jenis ini mula-mula mentakrifkan pengedaran bersyarat, dan kemudian mentakrifkan bahagian belakang variasi . Jika kita boleh menentukan proses mudah yang memetakan pengedaran data kepada Gaussian standard, tugas "penjana" menjadi hanya sesuai dengan setiap langkah kecil proses songsang proses ini. . Walau bagaimanapun, artikel ini tidak membuat sebarang gelombang pada masa itu.
Pada tahun 2020, berdasarkan idea sebelumnya, model DDPM (Denoising Diffusion Probabilistic Models), berbanding model resapan asas, pengarang menggabungkan model resapan dan skor denoising untuk membimbing proses latihan dan pensampelan, yang membawa peningkatan yang sesuai dalam sampel imej yang dijana, menjadikannya lebih mudah dan stabil untuk dilatih, hasil akhir adalah setanding dengan model GAN.
Rajah 2-Keputusan Generasi DDPM
Walau bagaimanapun, model DDPM tidak sempurna Memandangkan proses resapan adalah rantai Markov, kelemahannya ialah ia memerlukan bilangan langkah resapan yang agak besar untuk mendapatkan hasil yang lebih baik, yang menghasilkan penjanaan sampel yang sangat perlahan.
Jadi selepas DDPM, pada tahun 2021, Song et al mencadangkan DDIM (Denoising Diffusioin Implicit Model), yang mengubah proses resapan DDPM Kaedah pensampelan memanjangkan. proses resapan Markov tradisional kepada proses bukan Markov, dan boleh menggunakan langkah persampelan yang lebih kecil untuk mempercepatkan penjanaan sampel, meningkatkan kecekapan.
Terdapat juga beberapa penambahbaikan dalam kerja susulan untuk menyepadukan model resapan dengan rangkaian penjanaan tradisional, seperti gabungan model VAE dan DM, gabungan GAN+DM, dsb. Tunggu, saya tidak akan menerangkan butiran di sini.
Pada tahun 2022, Google melancarkan sistem AI baharu berdasarkan model penyebaran yang boleh Penerangan teks bertukar menjadi imej realistik.
Rajah 3
Rajah 4
Ia boleh dilihat daripada rajah skematik yang disediakan oleh Google bahawa teks input mula-mula dikodkan, dan kemudian ditukar kepada imej kecil 64*64 oleh model penyebaran teks-ke-imej Selanjutnya, imej kecil diproses menggunakan super-. model penyebaran resolusi , resolusi imej dipertingkatkan dalam proses lelaran selanjutnya, dan hasil akhir yang dihasilkan diperoleh - imej akhir 1024*1024. Proses ajaib ini sama seperti apa yang semua orang rasakan apabila menggunakannya Anda memasukkan sekeping teks - anjing golden retriever memakai turtleneck bertitik merah dan topi berkotak biru, dan kemudian program menjana teks di atas untuk anda dilihat.
Satu lagi aplikasi peringkat fenomena popular - novalAI Ini pada asalnya adalah tapak web khusus untuk penulisan AI Berdasarkan penjanaan imej semasa, ia menggabungkan sumber imej di Internet untuk melatih pemfokusan model penjanaan imej pada dua dimensi telah dibangunkan, dan kesannya telah mula mencapai tahap pelukis manusia.
Rajah 5
Selain memasukkan teks tradisional untuk menghasilkan gambar, ia juga menyokong memasukkan gambar sebagai rujukan, membolehkan AI menjana yang baharu berdasarkan gambar yang diketahui , yang pada tahap tertentu menyelesaikan masalah hasil janaan AI yang tidak terkawal.
Jadi, apakah proses kerja teknologi AI yang begitu berkuasa? Di sini kita mengambil model DDPM yang lebih klasik sebagai contoh untuk memberikan proses ringkas:
Proses ke hadapan ialah proses menambah hingar pada imej untuk membina sampel latihan GT.
Untuk pengedaran data awal yang diberikan x0~q(x), kami secara beransur-ansur menambah hingar Gaussian pada pengedaran data Proses ini mempunyai T kali, setiap langkah hasilnya ialah x1,
Seperti yang dinyatakan sebelum ini, ini adalah proses rantai Markov . Akhirnya, data akan cenderung menjadi taburan Gaussian isotropik.
2.2 Proses resapan terbalik
Proses terbalik ialah proses denoising jika kita tahu bahawa, x0 boleh dipulihkan daripada taburan Gaussian standard yang lengkap Telah dibuktikan bahawa jika memenuhi taburan Gaussian dan <.> cukup kecil, maka masih merupakan taburan Gaussian, dan kemudian tidak boleh disimpulkan begitu sahaja, jadi kami menggunakan Model pembelajaran mendalam dengan parameter digunakan untuk meramalkannya, jadi terdapat:
Jika x0 diketahui, maka melalui formula Bayesian:
Pembaca yang mengetahui sesuatu tentang pembelajaran mesin harus mengetahui bahawa semua latihan model adalah untuk mengoptimumkan parameter model untuk mendapatkan min dan varians yang boleh dipercayai Kami memaksimumkan logaritma taburan yang diramalkan, iaitu:
Selepas satu siri terbitan, model DDPM memperoleh ekspresi fungsi kehilangan akhir :
Kepada ringkaskan proses latihan:
Rajah 6 Model penyebaran telah menunjukkan potensi yang besar. Berbanding dengan model VAE, mereka tidak perlu menyelaraskan pengedaran posterior, dan mereka juga tidak perlu melatih diskriminasi tambahan seperti GAN Termasuk penglihatan komputer, bioinformatik dan pemprosesan pertuturan Ia mempunyai aplikasi dalam penjanaan imej dan aspek lain akan membantu meningkatkan kecekapan penciptaan imej Ia mungkin membenarkan AI menjana beberapa gambar berdasarkan keadaan, dan manusia boleh menapis dan mengubah suai hasilnya. Ini akan menjadi trend baharu dalam bidang lukisan 2D pada masa hadapan boleh meningkatkan kecekapan pengeluaran aset digital 2D. Walau bagaimanapun, dengan perkembangan teknologi AI, akan sentiasa ada beberapa kontroversi, dan bidang penjanaan imej tidak terkecuali sebagai tambahan kepada masalah dengan teknologi AI itu sendiri, seperti struktur imej yang dihasilkan adalah salah dan tidak munasabah, Ia juga disertai dengan beberapa pertikaian undang-undang, seperti isu hak cipta karya AI itu sendiri. Masalah teknikal boleh diselesaikan melalui pembangunan teknologi itu sendiri Kami mempunyai sebab untuk mempercayai bahawa dengan pembangunan teknologi AI, penjanaan imej akhirnya akan mencapai tahap yang sangat tinggi, yang akan menghapuskan kebanyakan pekerjaan yang berkaitan dengan lukisan rendah, yang akan. sangat Membebaskan produktiviti manusia. Isu hak cipta mungkin masih memerlukan jabatan kerajaan untuk memberi perhatian yang secukupnya kepada pembangunan industri berkaitan dan menambah baik dasar dan sistem yang berkaitan. Ini memerlukan kami untuk memikirkan lebih lanjut tentang bidang baru supaya teknologi AI dapat memberi perkhidmatan yang lebih baik kepada kami. https://www.php.cn/link/3799b2e805a7fa8b026fc0730b576fc 🎜> https://www.php.cn/link/6872937617af85db5a39a5243e858d1f>🎜 2.3 Proses latihan
Bahagian 03
● Ringkasan ●
Rujukan
Atas ialah kandungan terperinci Penjanaan imej berdasarkan Model Resapan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!