Saya percaya semua orang sudah biasa dengan populariti lukisan AI baru-baru ini.
Daripada karya yang dihasilkan oleh perisian lukisan AI hingga mengalahkan ramai artis manusia dan memenangi kejuaraan seni digital, sehingga kini, platform dalam dan luar negara seperti DALL.E, Imagen dan novelai telah berkembang maju.
Mungkin anda juga telah mengklik tapak web yang berkaitan dan cuba membiarkan AI menggambarkan pemandangan dalam fikiran anda, atau memuat naik foto kacak/cantik diri anda, dan kemudian ketawa dan ketawa melihat lelaki kasar yang akhirnya dihasilkan.
Jadi, semasa anda merasai daya tarikan lukisan AI, pernahkah anda memikirkannya (tidak, anda mesti pernah), apakah misteri di sebaliknya?
△Karya yang memenangi kejuaraan kategori seni digital di Colorado Technology Expo di Amerika Syarikat - "Space Opera"
Semuanya bermula daripada projek dipanggil Bercakap tentang model DDPM...
Model DDPM, nama penuh Denoising Diffusion Probabilistic Model, boleh dikatakan sebagai pencetus model resapan semasa.
Berbeza daripada model terdahulu seperti GAN, VAE dan model aliran, idea keseluruhan model resapan adalah untuk menjana imej secara beransur-ansur daripada imej hingar tulen melalui pendekatan berorientasikan pengoptimuman.
△ Kini terdapat perbandingan model imej yang dijana
Sesetengah rakan mungkin bertanya, apakah itu imej hingar tulen?
Ia sangat mudah apabila TV lama tidak mempunyai isyarat, gambar kepingan salji yang muncul disertai dengan bunyi "mencucuk" adalah gambar bunyi yang tulen.
Apa yang dilakukan oleh DDPM dalam fasa penjanaan ialah membuang "kepingan salji" ini sedikit demi sedikit sehingga imej yang jelas mendedahkan rupa sebenar Kami memanggil peringkat ini sebagai "denoising".
△Gambar bunyi bising tulen: Skrin kepingan salji TV lama
Melalui penerangan, anda dapat merasakan bahawa denoising sebenarnya adalah proses yang agak rumit.
Tiada peraturan tertentu untuk menafikan anda mungkin sudah lama sibuk, tetapi akhirnya anda masih mahu menangis di hadapan gambar-gambar yang aneh itu.
Sudah tentu, jenis gambar yang berbeza juga akan mempunyai peraturan denoising yang berbeza Bagi cara membiarkan mesin mempelajari peraturan ini, seseorang mempunyai idea dan memikirkan kaedah yang menarik:
Memandangkan peraturan denoising sukar dipelajari, mengapa tidak saya menukar gambar menjadi imej hingar tulen dengan menambah hingar, dan kemudian melakukan keseluruhan proses secara terbalik?
Ini mewujudkan keseluruhan proses latihan-inferens bagi model resapan: pertama, dengan menambahkan bunyi secara beransur-ansur dalam proses ke hadapan, imej ditukar kepada imej hingar tulen yang menghampiri taburan Gaussian; >Kemudian denoise secara beransur-ansur dalam proses terbalik untuk menjana imej;
△proses inferens latihan DDPMPada ketika ini, saya tertanya-tanya bagaimana semua orang akan menerimanya? Jika anda rasa tiada masalah dan mudah, bersedialah, saya akan mula menggunakan langkah muktamad (teori mendalam).
1.1.1 Proses ke hadapanProses ke hadapan juga dipanggil proses resapan, dan keseluruhannya ialah Rantai Markov berparameter (rantai Markov). Bermula dari pengagihan data awal x0~q(x), hingar Gaussian ditambah pada pengagihan data pada setiap langkah untuk T kali. Proses dari langkah t-1 xt-1 ke langkah t xt boleh dinyatakan dengan taburan Gaussian sebagai:
Dengan tetapan yang sesuai, apabila t terus meningkat , data asal x0 secara beransur-ansur akan kehilangan ciri-cirinya. Kami dapat memahami bahawa selepas langkah menambah hingar yang tidak terhingga, data akhir xT akan menjadi gambar tanpa sebarang ciri dan hingar rawak sepenuhnya, yang pertama kali kami panggil "skrin kepingan salji".Dalam proses ini, perubahan pada setiap langkah boleh dikawal dengan menetapkan hiperparameter βt Di bawah premis yang kita tahu apa itu gambar pertama, keseluruhan proses hingar hadapan boleh dikatakan diketahui Dan ia boleh dikawal, kita boleh mengetahui sepenuhnya rupa data yang dijana pada setiap langkah.
Tetapi masalahnya ialah setiap pengiraan perlu bermula dari titik permulaan, menggabungkan proses setiap langkah, dan perlahan-lahan membuat kesimpulan kepada data langkah tertentu xt yang anda mahu, yang terlalu menyusahkan. Nasib baik, kerana beberapa ciri taburan Gaussian, kita boleh mendapatkan xt terus daripada x0 dalam satu langkah.
Perhatian, inilah
dan ialah pekali gabungan, yang pada asasnya ialah ungkapan βt hiperparameter.
1.1.2 Proses songsang
Sama seperti proses ke hadapan, proses terbalik juga merupakan rantai Marr Markov, tetapi parameter yang digunakan di sini adalah berbeza Bagi parameter khusus, inilah yang kita perlukan mesin untuk belajar.
Sebelum memahami cara mesin belajar, kita fikirkan dahulu apakah proses membuat kesimpulan dengan tepat kembali ke langkah t-1 xt-1 daripada langkah t xt berdasarkan data asal tertentu x0?
Jawapannya ialah ini masih boleh diwakili oleh taburan Gaussian:
Perhatikan bahawa x0 mesti dipertimbangkan di sini, yang bermaksud imej akhir yang dihasilkan oleh proses sebaliknya masih perlu dibandingkan dengan yang berkaitan dengan data asal. Jika anda memasukkan gambar kucing, imej yang dijana oleh model mestilah daripada kucing Jika anda memasukkan gambar anjing, imej yang dijana oleh model juga harus berkaitan dengan anjing. Jika x0 dialih keluar, tidak kira apa jenis latihan imej yang dimasukkan, imej akhir yang dihasilkan oleh penyebaran akan sama, "kucing dan anjing tidak dibezakan".
Selepas satu siri terbitan, kami mendapati bahawa parameter dalam proses terbalik
dan
, ia masih boleh diungkapkan menggunakan x0, Apa yang proses penyongsangan sebenar boleh lakukan ialah mensimulasikannya dengan anggaran anggaran pengagihan yang lebih kurang, dinyatakan sebagai p0(xt-1|xt).
1.1.3 Matlamat Pengoptimuman
Pada mulanya kami menyebut bahawa model perlu dioptimumkan dengan meningkatkan persamaan antara data asal dan data yang akhirnya dijana oleh proses terbalik. Dalam pembelajaran mesin, kami mengira persamaan ini berdasarkan entropi silang.
Mengenai entropi silang, definisi akademik "digunakan untuk mengukur maklumat perbezaan antara dua taburan kebarangkalian." Dengan kata lain, lebih kecil entropi silang, lebih dekat imej yang dihasilkan oleh model dengan imej asal. Walau bagaimanapun, dalam kebanyakan kes, entropi silang adalah sukar atau mustahil untuk dikira, jadi kami biasanya mencapai kesan yang sama dengan mengoptimumkan ungkapan yang lebih mudah. Model Difusi menggunakan idea pengoptimuman model VAE dan menggantikan entropi silang dengan sempadan bawah variasi (VLB, juga dikenali sebagai ELBO) sebagai sasaran pengoptimuman maksimum. Selepas beberapa langkah penguraian, akhirnya kami mendapat:
Ramai rakan mesti menjadi besar kepala apabila melihat formula yang begitu rumit. Tetapi jangan panik, apa yang anda perlu perhatikan di sini hanyalah Lt-1 di tengah Ia mewakili anggaran taburan p0(xt-1|xt) dan taburan sebenar q(xt-1|xt,x0 antara. xt dan xt-1 ) jurang. Lebih kecil jurang, lebih baik imej akhir yang dihasilkan oleh model.1.1.4 Kod
Setelah memahami prinsip di sebalik DDPM, mari kita lihat bagaimana model DDPM dilaksanakan...
Itu pelik. Saya percaya bahawa apabila anda melihat ini, anda pasti tidak mahu dibaptiskan dengan beratus-ratus atau beribu-ribu baris kod. Nasib baik, MindSpore telah menyediakan anda dengan model DDPM yang dibangunkan sepenuhnya dan inferens boleh dilakukan dengan kedua-dua tangan dan boleh dijalankan pada satu kad sahaja perlu dahulu
Kemudian, rujuk kod berikut untuk mengkonfigurasi parameter:pip install denoising-diffusion-mindspore
Beberapa analisis parameter penting:
GaussianDiffusion
Pelatih
Eric Zelikman, pelajar kedoktoran dari Jabatan Sains Komputer di Universiti Stanford, menggunakan imaginasinya untuk cuba menggabungkan DALLE-2 dengan ChatGPT, satu lagi model perbualan popular baru-baru ini, untuk mencipta cerita buku bergambar yang mengharukan.
△DALLE-2 + ChatGPT, sebuah cerita tentang robot kecil bernama "Robbie" Tetapi ia adalah yang paling diketahui umum Apa itu dikenali adalah aplikasinya dalam teks-ke-imej. Masukkan beberapa kata kunci atau penerangan ringkas dan model boleh menjana gambar yang sepadan untuk anda.Contohnya, jika anda memasuki "City Night Scene Cyberpunk Greg Lutkowsky", hasil akhir akan menjadi karya berwarna terang dengan gaya sci-fi futuristik.
Untuk contoh lain, jika anda memasukkan "Monet's Woman Holding a Parasol in Moon Dream", hasilnya akan menjadi potret seorang wanita yang sangat kabur, dengan padanan warna yang unik Adakah ia mengingatkan anda tentang "Water Lilies" Monet? Mahukan foto landskap yang realistik sebagai penyelamat skrin? tiada masalah! △Country Field ScreensaverMahukan sesuatu dengan kepekatan yang lebih dua dimensi? Itu pun ok! △Daripada gaya lukisan landskap jurang yang realistik Gambar-gambar di atas semuanya dibuat oleh Wukong Painting di bawah platform MindDiffusion Oh, Wukong Huahua adalah sebuah lukisan yang besar Model graf teks Cina berdasarkan model penyebaran Ia dibangunkan bersama oleh pasukan Noah Huawei, Makmal Selari Teragih ChinaSoft dan Jabatan Produk Pengkomputeran Ascend.Model ini dilatih berdasarkan set data Wukong dan dilaksanakan menggunakan penyelesaian perisian dan perkakasan MindSpore + Ascend.
Rakan-rakan yang tidak sabar-sabar untuk mencubanya, jangan risau Untuk memberi pengalaman yang lebih baik kepada semua orang dan lebih banyak ruang untuk pembangunan diri, kami bercadang untuk menjadikan model dalam MindDiffusion juga mempunyai ciri-ciri. kebolehlatihan dan inferens Dijangkakan bahawa dalam saya akan bertemu anda semua tahun depan, jadi nantikan.
Kami mengalu-alukan semua orang untuk sumbang saran dan menjana pelbagai gaya karya yang unik~
(Menurut rakan sekerja yang pergi bertanyakan maklumat dalaman, sesetengah orang sudah mula mencuba "Zhang Fei Embroidery", "Liu Huaqiang" "Chopping Melon" dan "Dewa Yunani Kuno vs. Godzilla". Ummm, tiba-tiba saya menantikan produk siap (ಡωಡ))
One More Thing
Yang terakhir, Kini Diffusion begitu popular, sesetengah orang juga bertanya mengapa ia boleh menjadi begitu popular malah mula mengatasi rangkaian GAN dalam perhatian?
Penyebaran mempunyai kelebihan yang luar biasa dan kelemahan yang jelas; banyak bidangnya masih kosong, dan masa depannya masih tidak diketahui.
Mungkin kata-kata Profesor Ma Yi boleh memberikan jawapan kepada kita.
Tetapi keberkesanan proses resapan dan penggantian pantas GAN juga menggambarkan sepenuhnya kebenaran mudah: Beberapa baris terbitan matematik yang mudah dan betul boleh mencapai keputusan yang lebih besar daripada yang dalam sepuluh tahun yang lalu. Menyahpepijat hiperparameter pada skala adalah lebih berkesan daripada menyahpepijat struktur rangkaian.Mungkin ini adalah daya tarikan model Difusi.
[1]https://medium.com/mlearning-ai/ai-art-wins-fine-arts-competition-and-sparks-controversy- 882f9b4df98c
[2]Jonathan Ho, Ajay Jain dan Pieter Abbeel. Menolak Model Kebarangkalian Resapan. arXiv:2006.11239, 2020.
[3]Ling Yang, Zhilong Zhang, Shenda Hong, Runsheng Xu, Yue Zhao, Yingxia Shao, Wentao Zhang, Ming-Hsuan Yang dan Bin Cui. Model resapan: Tinjauan menyeluruh tentang kaedah dan aplikasi. pracetak arXiv arXiv:2209.00796, 2022.
[4]https://lilianweng.github.io/posts/2021-07-11-diffusion-models
[5]https:/ /github.com/lvyufeng/denoising-diffusion-mindspore
[6]https://zhuanlan.zhihu.com/p/525106459
[7]https://zhuanlan.zhihu .com/p/500532271
[8]https://www.zhihu.com/question/536012286
[9]https://mp.weixin.qq.com/s /XTNk1saGcgPO-PxzkrBnIg
[10]https://m.weibo.cn/3235040884/4804448864177745
Atas ialah kandungan terperinci Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!