Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad.-AI-php.cn

Saya percaya semua orang sudah biasa dengan populariti lukisan AI baru-baru ini.

Daripada karya yang dihasilkan oleh perisian lukisan AI hingga mengalahkan ramai artis manusia dan memenangi kejuaraan seni digital, sehingga kini, platform dalam dan luar negara seperti DALL.E, Imagen dan novelai telah berkembang maju.

Mungkin anda juga telah mengklik tapak web yang berkaitan dan cuba membiarkan AI menggambarkan pemandangan dalam fikiran anda, atau memuat naik foto kacak/cantik diri anda, dan kemudian ketawa dan ketawa melihat lelaki kasar yang akhirnya dihasilkan.

Jadi, semasa anda merasai daya tarikan lukisan AI, pernahkah anda memikirkannya (tidak, anda mesti pernah), apakah misteri di sebaliknya?

Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad.

△Karya yang memenangi kejuaraan kategori seni digital di Colorado Technology Expo di Amerika Syarikat - "Space Opera"

Semuanya bermula daripada projek dipanggil Bercakap tentang model DDPM...

Apa itu DDPM?

Model DDPM, nama penuh Denoising Diffusion Probabilistic Model, boleh dikatakan sebagai pencetus model resapan semasa.

Berbeza daripada model terdahulu seperti GAN, VAE dan model aliran, idea keseluruhan model resapan adalah untuk menjana imej secara beransur-ansur daripada imej hingar tulen melalui pendekatan berorientasikan pengoptimuman.

Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad.

△ Kini terdapat perbandingan model imej yang dijana

Sesetengah rakan mungkin bertanya, apakah itu imej hingar tulen?

Ia sangat mudah apabila TV lama tidak mempunyai isyarat, gambar kepingan salji yang muncul disertai dengan bunyi "mencucuk" adalah gambar bunyi yang tulen.

Apa yang dilakukan oleh DDPM dalam fasa penjanaan ialah membuang "kepingan salji" ini sedikit demi sedikit sehingga imej yang jelas mendedahkan rupa sebenar Kami memanggil peringkat ini sebagai "denoising".

Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad.

△Gambar bunyi bising tulen: Skrin kepingan salji TV lama

Melalui penerangan, anda dapat merasakan bahawa denoising sebenarnya adalah proses yang agak rumit.

Tiada peraturan tertentu untuk menafikan anda mungkin sudah lama sibuk, tetapi akhirnya anda masih mahu menangis di hadapan gambar-gambar yang aneh itu.

Sudah tentu, jenis gambar yang berbeza juga akan mempunyai peraturan denoising yang berbeza Bagi cara membiarkan mesin mempelajari peraturan ini, seseorang mempunyai idea dan memikirkan kaedah yang menarik:

Memandangkan peraturan denoising sukar dipelajari, mengapa tidak saya menukar gambar menjadi imej hingar tulen dengan menambah hingar, dan kemudian melakukan keseluruhan proses secara terbalik?

Ini mewujudkan keseluruhan proses latihan-inferens bagi model resapan: pertama, dengan menambahkan bunyi secara beransur-ansur dalam proses ke hadapan, imej ditukar kepada imej hingar tulen yang menghampiri taburan Gaussian; >

Kemudian denoise secara beransur-ansur dalam proses terbalik untuk menjana imej;

△proses inferens latihan DDPM

Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad. Pada ketika ini, saya tertanya-tanya bagaimana semua orang akan menerimanya? Jika anda rasa tiada masalah dan mudah, bersedialah, saya akan mula menggunakan langkah muktamad (teori mendalam).

1.1.1 Proses ke hadapan

Proses ke hadapan juga dipanggil proses resapan, dan keseluruhannya ialah Rantai Markov berparameter (rantai Markov). Bermula dari pengagihan data awal x0~q(x), hingar Gaussian ditambah pada pengagihan data pada setiap langkah untuk T kali. Proses dari langkah t-1 xt-1 ke langkah t xt boleh dinyatakan dengan taburan Gaussian sebagai:

Dengan tetapan yang sesuai, apabila t terus meningkat , data asal x0 secara beransur-ansur akan kehilangan ciri-cirinya. Kami dapat memahami bahawa selepas langkah menambah hingar yang tidak terhingga, data akhir xT akan menjadi gambar tanpa sebarang ciri dan hingar rawak sepenuhnya, yang pertama kali kami panggil "skrin kepingan salji".

Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad. Dalam proses ini, perubahan pada setiap langkah boleh dikawal dengan menetapkan hiperparameter βt Di bawah premis yang kita tahu apa itu gambar pertama, keseluruhan proses hingar hadapan boleh dikatakan diketahui Dan ia boleh dikawal, kita boleh mengetahui sepenuhnya rupa data yang dijana pada setiap langkah.

Tetapi masalahnya ialah setiap pengiraan perlu bermula dari titik permulaan, menggabungkan proses setiap langkah, dan perlahan-lahan membuat kesimpulan kepada data langkah tertentu xt yang anda mahu, yang terlalu menyusahkan. Nasib baik, kerana beberapa ciri taburan Gaussian, kita boleh mendapatkan xt terus daripada x0 dalam satu langkah.

Perhatian, inilah

Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad.

dan Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad. ialah pekali gabungan, yang pada asasnya ialah ungkapan βt hiperparameter.

Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad.

1.1.2 Proses songsang

Sama seperti proses ke hadapan, proses terbalik juga merupakan rantai Marr Markov, tetapi parameter yang digunakan di sini adalah berbeza Bagi parameter khusus, inilah yang kita perlukan mesin untuk belajar.

Sebelum memahami cara mesin belajar, kita fikirkan dahulu apakah proses membuat kesimpulan dengan tepat kembali ke langkah t-1 xt-1 daripada langkah t xt berdasarkan data asal tertentu x0?

Jawapannya ialah ini masih boleh diwakili oleh taburan Gaussian:

Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad.

Perhatikan bahawa x0 mesti dipertimbangkan di sini, yang bermaksud imej akhir yang dihasilkan oleh proses sebaliknya masih perlu dibandingkan dengan yang berkaitan dengan data asal. Jika anda memasukkan gambar kucing, imej yang dijana oleh model mestilah daripada kucing Jika anda memasukkan gambar anjing, imej yang dijana oleh model juga harus berkaitan dengan anjing. Jika x0 dialih keluar, tidak kira apa jenis latihan imej yang dimasukkan, imej akhir yang dihasilkan oleh penyebaran akan sama, "kucing dan anjing tidak dibezakan".

Selepas satu siri terbitan, kami mendapati bahawa parameter dalam proses terbalik

Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad.

dan

Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad.

, ia masih boleh diungkapkan menggunakan x0, Apa yang proses penyongsangan sebenar boleh lakukan ialah mensimulasikannya dengan anggaran anggaran pengagihan yang lebih kurang, dinyatakan sebagai p0(xt-1|xt). Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad.

1.1.3 Matlamat Pengoptimuman Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad.

Pada mulanya kami menyebut bahawa model perlu dioptimumkan dengan meningkatkan persamaan antara data asal dan data yang akhirnya dijana oleh proses terbalik. Dalam pembelajaran mesin, kami mengira persamaan ini berdasarkan entropi silang.

Mengenai entropi silang, definisi akademik "digunakan untuk mengukur maklumat perbezaan antara dua taburan kebarangkalian." Dengan kata lain, lebih kecil entropi silang, lebih dekat imej yang dihasilkan oleh model dengan imej asal. Walau bagaimanapun, dalam kebanyakan kes, entropi silang adalah sukar atau mustahil untuk dikira, jadi kami biasanya mencapai kesan yang sama dengan mengoptimumkan ungkapan yang lebih mudah. Model Difusi menggunakan idea pengoptimuman model VAE dan menggantikan entropi silang dengan sempadan bawah variasi (VLB, juga dikenali sebagai ELBO) sebagai sasaran pengoptimuman maksimum. Selepas beberapa langkah penguraian, akhirnya kami mendapat:

Ramai rakan mesti menjadi besar kepala apabila melihat formula yang begitu rumit. Tetapi jangan panik, apa yang anda perlu perhatikan di sini hanyalah Lt-1 di tengah Ia mewakili anggaran taburan p0(xt-1|xt) dan taburan sebenar q(xt-1|xt,x0 antara. xt dan xt-1 ) jurang. Lebih kecil jurang, lebih baik imej akhir yang dihasilkan oleh model.

1.1.4 Kod Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad.

Setelah memahami prinsip di sebalik DDPM, mari kita lihat bagaimana model DDPM dilaksanakan...

Itu pelik. Saya percaya bahawa apabila anda melihat ini, anda pasti tidak mahu dibaptiskan dengan beratus-ratus atau beribu-ribu baris kod. Nasib baik, MindSpore telah menyediakan anda dengan model DDPM yang dibangunkan sepenuhnya dan inferens boleh dilakukan dengan kedua-dua tangan dan boleh dijalankan pada satu kad sahaja perlu dahulu

Kemudian, rujuk kod berikut untuk mengkonfigurasi parameter:

pip install denoising-diffusion-mindspore

Salin selepas log masuk

Beberapa analisis parameter penting:

GaussianDiffusion

imej_size: saiz imej
timesteps: bilangan langkah hingar
sampling_timesteps : The bilangan langkah pensampelan untuk meningkatkan prestasi inferens, ia perlu kurang daripada bilangan langkah menambah hingar

Pelatih

folder_or_dataset: sepadan dengan laluan dalam gambar, yang boleh menjadi Laluan set data yang dimuat turun (str), yang juga boleh menjadi VisionBaseDataset, GeneratorDataset atau MindDataset yang telah menyelesaikan pemprosesan data
Model DDPM "versi lanjutan" MindDiffusion
.
Sambil mengoptimumkan model secara berterusan, mereka juga telah membangunkan aplikasi Resapan dalam pelbagai bidang secara beransur-ansur.

Ini termasuk pengoptimuman imej, lukisan dalam, penglihatan 3D dalam bidang penglihatan komputer, teks ke pertuturan dalam pemprosesan bahasa semula jadi, penjanaan konformasi molekul, reka bentuk bahan dalam bidang AI untuk Sains, dsb.

Eric Zelikman, pelajar kedoktoran dari Jabatan Sains Komputer di Universiti Stanford, menggunakan imaginasinya untuk cuba menggabungkan DALLE-2 dengan ChatGPT, satu lagi model perbualan popular baru-baru ini, untuk mencipta cerita buku bergambar yang mengharukan.

△DALLE-2 + ChatGPT, sebuah cerita tentang robot kecil bernama "Robbie"

Tetapi ia adalah yang paling diketahui umum Apa itu dikenali adalah aplikasinya dalam teks-ke-imej. Masukkan beberapa kata kunci atau penerangan ringkas dan model boleh menjana gambar yang sepadan untuk anda.

Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad. Contohnya, jika anda memasuki "City Night Scene Cyberpunk Greg Lutkowsky", hasil akhir akan menjadi karya berwarna terang dengan gaya sci-fi futuristik.

Untuk contoh lain, jika anda memasukkan "Monet's Woman Holding a Parasol in Moon Dream", hasilnya akan menjadi potret seorang wanita yang sangat kabur, dengan padanan warna yang unik Adakah ia mengingatkan anda tentang "Water Lilies" Monet?

Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad.

Mahukan foto landskap yang realistik sebagai penyelamat skrin? tiada masalah!

Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad.

△Country Field Screensaver

Mahukan sesuatu dengan kepekatan yang lebih dua dimensi? Itu pun ok!

Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad.

△Daripada gaya lukisan landskap jurang yang realistik

Gambar-gambar di atas semuanya dibuat oleh Wukong Painting di bawah platform MindDiffusion Oh, Wukong Huahua adalah sebuah lukisan yang besar Model graf teks Cina berdasarkan model penyebaran Ia dibangunkan bersama oleh pasukan Noah Huawei, Makmal Selari Teragih ChinaSoft dan Jabatan Produk Pengkomputeran Ascend.

Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad. Model ini dilatih berdasarkan set data Wukong dan dilaksanakan menggunakan penyelesaian perisian dan perkakasan MindSpore + Ascend.

Rakan-rakan yang tidak sabar-sabar untuk mencubanya, jangan risau Untuk memberi pengalaman yang lebih baik kepada semua orang dan lebih banyak ruang untuk pembangunan diri, kami bercadang untuk menjadikan model dalam MindDiffusion juga mempunyai ciri-ciri. kebolehlatihan dan inferens Dijangkakan bahawa dalam saya akan bertemu anda semua tahun depan, jadi nantikan.

Kami mengalu-alukan semua orang untuk sumbang saran dan menjana pelbagai gaya karya yang unik~

(Menurut rakan sekerja yang pergi bertanyakan maklumat dalaman, sesetengah orang sudah mula mencuba "Zhang Fei Embroidery", "Liu Huaqiang" "Chopping Melon" dan "Dewa Yunani Kuno vs. Godzilla". Ummm, tiba-tiba saya menantikan produk siap (ಡωಡ))

One More Thing

Yang terakhir, Kini Diffusion begitu popular, sesetengah orang juga bertanya mengapa ia boleh menjadi begitu popular malah mula mengatasi rangkaian GAN dalam perhatian?

Penyebaran mempunyai kelebihan yang luar biasa dan kelemahan yang jelas; banyak bidangnya masih kosong, dan masa depannya masih tidak diketahui.

Mengapa ramai orang bekerja tanpa mengenal penat lelah?

Mungkin kata-kata Profesor Ma Yi boleh memberikan jawapan kepada kita.

Tetapi keberkesanan proses resapan dan penggantian pantas GAN juga menggambarkan sepenuhnya kebenaran mudah:

Beberapa baris terbitan matematik yang mudah dan betul boleh mencapai keputusan yang lebih besar daripada yang dalam sepuluh tahun yang lalu. Menyahpepijat hiperparameter pada skala adalah lebih berkesan daripada menyahpepijat struktur rangkaian.

Mungkin ini adalah daya tarikan model Difusi.

参考链接（可滑动查看）：

[1]https://medium.com/mlearning-ai/ai-art-wins-fine-arts-competition-and-sparks-controversy- 882f9b4df98c

[2]Jonathan Ho, Ajay Jain dan Pieter Abbeel. Menolak Model Kebarangkalian Resapan. arXiv:2006.11239, 2020.

[3]Ling Yang, Zhilong Zhang, Shenda Hong, Runsheng Xu, Yue Zhao, Yingxia Shao, Wentao Zhang, Ming-Hsuan Yang dan Bin Cui. Model resapan: Tinjauan menyeluruh tentang kaedah dan aplikasi. pracetak arXiv arXiv:2209.00796, 2022.

[4]https://lilianweng.github.io/posts/2021-07-11-diffusion-models

[5]https:/ /github.com/lvyufeng/denoising-diffusion-mindspore

[6]https://zhuanlan.zhihu.com/p/525106459

[7]https://zhuanlan.zhihu .com/p/500532271

[8]https://www.zhihu.com/question/536012286

[9]https://mp.weixin.qq.com/s /XTNk1saGcgPO-PxzkrBnIg

[10]https://m.weibo.cn/3235040884/4804448864177745

Atas ialah kandungan terperinci Satu kad boleh menjalankan model lukisan AI yang boleh difahami oleh orang baru di sini. Kuasa pengkomputeran NPU percuma tersedia dengan 1 juta kad.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!