Pada tahun lalu, satu siri model penyebaran graf Vincentian yang diwakili oleh Stable Diffusion telah mengubah sepenuhnya bidang penciptaan visual. Banyak pengguna telah meningkatkan produktiviti mereka dengan imej yang dihasilkan oleh model penyebaran. Walau bagaimanapun, kelajuan penjanaan model penyebaran adalah masalah biasa. Oleh kerana model denoising bergantung pada denoising berbilang langkah untuk menukar hingar Gaussian awal secara beransur-ansur menjadi imej, ia memerlukan berbilang pengiraan rangkaian, menghasilkan kelajuan penjanaan yang sangat perlahan. Ini menjadikan model penyebaran graf Vincentian berskala besar sangat tidak mesra kepada sesetengah aplikasi yang memfokuskan pada masa nyata dan interaktiviti. Dengan pengenalan satu siri teknologi, bilangan langkah yang diperlukan untuk mengambil sampel daripada model penyebaran telah meningkat daripada beberapa ratus langkah awal kepada berpuluh-puluh langkah, atau bahkan hanya 4-8 langkah.
Baru-baru ini, pasukan penyelidik daripada Google mencadangkan model UFOGen, satu varian model resapan yang boleh mencuba dengan sangat cepat. Dengan memperhalusi Stable Diffusion dengan kaedah yang dicadangkan dalam kertas, UFOGen boleh menjana imej berkualiti tinggi dalam satu langkah sahaja. Pada masa yang sama, aplikasi hiliran Stable Diffusion, seperti penjanaan graf, ControlNet dan keupayaan lain, juga boleh dikekalkan.
Sila klik pautan berikut untuk melihat kertas kerja: https://arxiv.org/abs/2311.09257
Seperti yang anda lihat dari gambar di bawah, UFO,Gen boleh menjana kualiti tinggi imej dalam satu langkah sahaja.
Meningkatkan kelajuan penjanaan model resapan bukanlah hala tuju penyelidikan baharu. Penyelidikan terdahulu dalam bidang ini tertumpu terutamanya pada dua arah. Satu arah adalah untuk mereka bentuk kaedah pengiraan berangka yang lebih cekap,supaya mencapai tujuan menyelesaikan pensampelan ODE model resapan menggunakan langkah diskret yang lebih sedikit. Contohnya, siri penyelesai berangka DPM yang dicadangkan oleh pasukan Zhu Jun di Universiti Tsinghua telah disahkan sangat berkesan dalam Resapan Stabil, dan boleh mengurangkan dengan ketara bilangan langkah penyelesaian daripada 50 langkah lalai DDIM kepada kurang daripada 20 langkah. Arahan lain ialah menggunakan kaedah penyulingan pengetahuan untuk memampatkan laluan pensampelan berasaskan ODE model kepada bilangan langkah yang lebih kecil. Contoh ke arah ini ialah penyulingan Berpandu, salah satu calon kertas terbaik di CVPR2023, dan Model Ketekalan Terpendam (LCM) yang popular baru-baru ini. LCM, khususnya, boleh mengurangkan bilangan langkah pensampelan kepada hanya 4 dengan menyuling sasaran ketekalan, yang telah melahirkan banyak aplikasi penjanaan masa nyata.
Walau bagaimanapun, pasukan penyelidik Google tidak mengikut arahan umum di atas dalam model UFOGen, tetapi mengambil pendekatan berbeza dan menggunakan idea model hibrid model difusi dan GAN yang dicadangkan lebih setahun lalu. Mereka percaya bahawa pensampelan dan penyulingan berasaskan ODE yang dinyatakan di atas mempunyai had asasnya, dan sukar untuk memampatkan bilangan langkah pensampelan kepada had. Oleh itu, jika anda ingin mencapai matlamat generasi satu langkah, anda perlu membuka idea baharu.
Model hibrid merujuk kepada kaedah yang menggabungkan model resapan dan rangkaian musuh generatif (GAN). Kaedah ini pertama kali dicadangkan oleh pasukan penyelidik NVIDIA di ICLR 2022 dan dipanggil DDGAN ("Menggunakan Denoising Diffusion GAN untuk Menyelesaikan Tiga Masalah dalam Pembelajaran Generatif"). DDGAN diilhamkan oleh kelemahan model resapan biasa yang membuat andaian Gaussian tentang pengagihan pengurangan hingar. Ringkasnya, model resapan mengandaikan bahawa taburan denosing (taburan bersyarat yang, diberikan sampel bising, menghasilkan sampel yang kurang bising) ialah taburan Gaussian yang mudah. Walau bagaimanapun, teori persamaan pembezaan stokastik membuktikan bahawa andaian sedemikian hanya berlaku apabila saiz langkah pengurangan hingar menghampiri 0. Oleh itu, model resapan memerlukan sejumlah besar langkah denoising berulang untuk memastikan saiz langkah denoising yang kecil, menghasilkan kelajuan penjanaan yang perlahan DDGAN mencadangkan untuk meninggalkan andaian Gaussian bagi pengedaran denoising dan sebaliknya menggunakan GAN bersyarat untuk mensimulasikannya. Pengagihan pengurangan hingar ini. Oleh kerana GAN mempunyai keupayaan perwakilan yang sangat kuat dan boleh mensimulasikan pengedaran kompleks, saiz langkah pengurangan hingar yang lebih besar boleh digunakan untuk mengurangkan bilangan langkah. Walau bagaimanapun, DDGAN menukar matlamat latihan pembinaan semula yang stabil bagi model resapan kepada matlamat latihan GAN, yang boleh menyebabkan ketidakstabilan latihan dengan mudah dan menyukarkan untuk melanjutkan kepada tugas yang lebih kompleks. Di NeurIPS 2023, pasukan penyelidik Google yang sama yang mencipta UGOGen mencadangkan SIDDM (tajuk kertas Semi-Implicit Denoising Diffusion Models), yang memperkenalkan semula fungsi objektif pembinaan semula ke dalam objektif latihan DDGAN, meningkatkan kestabilan latihan dan kualiti penjanaan Semua meningkat dengan ketara berbanding DDGAN.
SIDDM, sebagai pendahulu UFOGen, boleh menjana imej berkualiti tinggi pada CIFAR-10, ImageNet dan set data penyelidikan lain dalam hanya 4 langkah. Tetapi SIDDM mempunyai dua masalah yang perlu diselesaikan: pertama, ia tidak boleh mencapai penjanaan satu langkah keadaan ideal kedua, ia tidak mudah untuk memanjangkannya ke bidang graf Vincentian yang lebih prihatin. Untuk tujuan ini, pasukan penyelidik Google mencadangkan UFOGen untuk menyelesaikan dua masalah ini. Khususnya, untuk soalan satu, melalui analisis matematik mudah, pasukan mendapati bahawa dengan menukar kaedah parameterisasi penjana dan menukar kaedah pengiraan fungsi kehilangan pembinaan semula, model teori boleh dijana dalam satu langkah. Untuk soalan dua, pasukan mencadangkan untuk menggunakan model Stable Diffusion sedia ada untuk permulaan bagi membolehkan model UFOGen dikembangkan kepada tugas rajah Vincent dengan lebih pantas dan lebih baik. Perlu diingat bahawa SIDDM telah mencadangkan bahawa kedua-dua penjana dan diskriminasi mengguna pakai seni bina UNet Oleh itu, berdasarkan reka bentuk ini, penjana dan diskriminator UFOGen dimulakan oleh model Stable Diffusion. Melakukannya memanfaatkan sepenuhnya maklumat dalaman Stable Diffusion, terutamanya tentang hubungan antara imej dan teks. Maklumat sebegini sukar diperoleh melalui pembelajaran lawan. Algoritma latihan dan gambar rajah ditunjukkan di bawah. Perlu diperhatikan bahawa terdapat beberapa kerja sebelum ini menggunakan GAN untuk membuat graf Vincentian, seperti NVIDIA's StyleGAN-T dan Adobe's GigaGAN, yang telah mengembangkan seni bina asas StyleGAN kepada saiz yang lebih besar . skala, supaya gambar boleh dibuat dalam satu langkah. Pengarang UFOGen menegaskan bahawa berbanding dengan kerja berasaskan GAN sebelumnya, sebagai tambahan kepada kualiti penjanaan, UFOGen mempunyai beberapa kelebihan: Kandungan yang ditulis semula: 1. Dalam tugas graf Vincentian, latihan rangkaian adversarial generatif tulen (GAN) adalah sangat tidak stabil. Diskriminasi bukan sahaja perlu menilai tekstur imej, tetapi juga perlu memahami tahap padanan antara imej dan teks, yang merupakan tugas yang sangat sukar, terutamanya pada peringkat awal latihan. Oleh itu, model GAN terdahulu, seperti GigaGAN, memperkenalkan sejumlah besar kerugian tambahan untuk membantu latihan, yang menjadikan latihan dan pelarasan parameter amat sukar. Walau bagaimanapun, UFOGen menjadikan GAN memainkan peranan tambahan dalam hal ini dengan memperkenalkan kerugian pembinaan semula, dengan itu mencapai latihan yang sangat stabil 2 Latihan GAN secara langsung bukan sahaja tidak stabil tetapi juga sangat mahal, terutamanya pada graf Vincent sejumlah besar data dan langkah latihan. Oleh kerana dua set parameter perlu dikemas kini pada masa yang sama, latihan GAN menggunakan lebih banyak masa dan memori daripada model resapan. Reka bentuk inovatif UFOGen boleh memulakan parameter daripada Stable Diffusion, dengan sangat menjimatkan masa latihan. Biasanya penumpuan hanya memerlukan puluhan ribu langkah latihan. 3 Salah satu daya tarikan model penyebaran graf Vincent ialah ia boleh digunakan untuk tugasan lain, termasuk aplikasi yang tidak memerlukan penalaan halus seperti graf graf, dan aplikasi yang sudah memerlukan penalaan halus seperti. generasi terkawal. Model GAN sebelum ini sukar untuk dipertingkatkan kepada tugas hiliran ini kerana penalaan halus GAN adalah sukar. Sebaliknya, UFOGen mempunyai rangka kerja model penyebaran dan oleh itu boleh digunakan dengan lebih mudah untuk tugas-tugas ini. Rajah di bawah menunjukkan graf penjanaan graf UFOGen dan contoh penjanaan boleh dikawal Ambil perhatian bahawa penjanaan ini hanya memerlukan satu langkah persampelan. Percubaan telah menunjukkan bahawa UFOGen boleh menjana imej berkualiti tinggi yang sepadan dengan penerangan teks dalam hanya satu langkah pensampelan. Berbanding dengan kaedah pensampelan berkelajuan tinggi yang dicadangkan baru-baru ini untuk model resapan (seperti Instaflow dan LCM), UFOGen menunjukkan daya saing yang kukuh. Malah berbanding dengan Resapan Stabil, yang memerlukan 50 langkah persampelan, sampel yang dihasilkan oleh UFOGen tidaklah lebih rendah dari segi rupa. Berikut ialah beberapa hasil perbandingan: Pasukan Google mencadangkan model berkuasa yang dipanggil UFOGen, yang dilaksanakan dengan menambah baik model penyebaran sedia ada dan model hibrid GAN. Model ini diperhalusi oleh Stable Diffusion, dan sambil memastikan keupayaan untuk menjana graf dalam satu langkah, ia juga sesuai untuk aplikasi hiliran yang berbeza. Sebagai salah satu kerja awal untuk mencapai sintesis teks-ke-imej yang sangat pantas, UFOGen telah membuka laluan baharu dalam bidang model generatif berkecekapan tinggi Ringkasan
Atas ialah kandungan terperinci Langkah baharu ke arah penjanaan imej berkualiti tinggi: kaedah pensampelan ultra pantas UFOGen Google. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!