Rumah > Peranti teknologi > AI > Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - 'platform tersuai arXiv' bagi pasukan visual teratas universiti Jerman

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - 'platform tersuai arXiv' bagi pasukan visual teratas universiti Jerman

王林
Lepaskan: 2023-12-27 17:49:40
ke hadapan
1227 orang telah melayarinya

Imej dijana dalam 10 milisaat, dan 6,000 imej dijana dalam 1 minit Apakah konsepnya?

Dalam gambar di bawah, anda boleh merasai kuasa super AI. .

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti JermanGambar

Kelajuan penjanaan gambar masa nyata yang menakjubkan adalah hasil daripada StreamDiffusion yang dicadangkan oleh penyelidik dari UC Berkeley, Universiti Tsukuba, dsb.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti JermanPenyelesaian serba baharu ini ialah proses model penyebaran yang membolehkan penjanaan imej interaktif masa nyata pada lebih 100fps.

Gambar

Alamat kertas: https://arxiv.org/abs/2312.12491

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti JermanStreamDiffusion secara langsung mendominasi sumber terbuka GitHub.

Pictures

StreamDiffusion secara inovatif menggunakan strategi pemprosesan kelompok dan bukannya denoising jujukan, iaitu kira-kira 1.5 kali lebih cepat daripada kaedah tradisional. Selain itu, algoritma panduan bebas pengelas sisa (RCFG) baharu yang dicadangkan oleh pengarang boleh 2.05 kali lebih pantas daripada panduan bebas pengelas tradisional.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti JermanPerkara yang paling penting ialah kaedah baharu itu boleh mencapai kelajuan penjanaan imej-ke-imej sebanyak 91.07fps pada RTX 4090.

Gambar

Pada masa hadapan, dalam senario yang berbeza seperti metaverse, pemaparan grafik permainan video dan penstriman video secara langsung, penjanaan pantas StreamDiffusion dapat memenuhi keperluan daya pemprosesan yang tinggi bagi aplikasi ini.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti JermanKhususnya, penjanaan imej masa nyata boleh memberikan keupayaan pengeditan dan kreatif yang hebat untuk mereka yang bekerja dalam pembangunan permainan dan pemaparan video. .

Contoh biasa ialah menggunakan model resapan untuk mencipta watak maya VTuber - dapat bertindak balas dengan lancar kepada input pengguna.

Gambar

Untuk meningkatkan daya pemprosesan tinggi dan keupayaan interaksi masa nyata, hala tuju penyelidikan semasa tertumpu terutamanya pada mengurangkan bilangan lelaran denoising, seperti mengurangkannya daripada 50 lelaran kepada beberapa, atau satu. Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman

Strategi biasa adalah untuk memperhalusi model resapan berbilang langkah kepada beberapa langkah dan membina semula proses resapan menggunakan ODE. Untuk meningkatkan kecekapan, model resapan juga telah dikira.

Dalam kertas terbaharu, penyelidik bermula dari arah ortogon dan memperkenalkan StreamDiffusion - saluran paip resapan masa nyata yang direka untuk penjanaan imej interaktif yang tinggi.

Kerja reka bentuk model sedia ada boleh disepadukan dengan StreamDiffusion sambil juga menggunakan model penyebaran denoising N-step untuk mengekalkan daya pemprosesan yang tinggi dan menyediakan pengguna dengan pilihan yang lebih fleksibel

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti JermanGambar

Penjanaan imej masa nyata|Lajur pertama dan kedua: contoh lukisan masa nyata berbantukan AI, lajur ketiga: pemaparan masa nyata ilustrasi 2D daripada avatar 3D. Lajur 4 dan 5: Penapis kamera langsung. Penjanaan imej masa nyata |. Lajur pertama dan kedua menunjukkan contoh lukisan masa nyata berbantukan AI, dan lajur ketiga menunjukkan proses menjana ilustrasi 2D dengan memaparkan avatar 3D dalam masa nyata. Lajur keempat dan kelima menunjukkan kesan penapis kamera masa nyata

Bagaimana ia dilaksanakan secara khusus?

StreamDiffusion Architecture

StreamDiffusion ialah saluran paip resapan baharu yang direka untuk meningkatkan daya pemprosesan.

Ia terdiri daripada beberapa bahagian penting:

Strategi pemprosesan batch penstriman, panduan bebas pengelas sisa (RCFG), baris gilir input dan output, penapis persamaan stokastik (Penapis Keserupaan Stochastic), program pra-pengiraan, pengekod autoelerasi mikro alatan.

Batch denoising

Dalam model resapan, langkah denoising dilakukan mengikut turutan, yang menyebabkan masa pemprosesan U-Net meningkat mengikut perkadaran dengan bilangan langkah.

Walau bagaimanapun, untuk menghasilkan imej kesetiaan tinggi, bilangan langkah perlu ditambah.

Untuk menyelesaikan masalah penjanaan kependaman tinggi dalam penyebaran interaktif, penyelidik mencadangkan kaedah yang dipanggil Stream Batch.

Seperti yang ditunjukkan dalam rajah di bawah, dalam kaedah terkini, dan bukannya menunggu satu imej dibatalkan sepenuhnya sebelum memproses imej input seterusnya, imej input seterusnya diterima selepas setiap langkah denoise.

Ini membentuk kumpulan denoising, dan langkah denosing untuk setiap imej adalah berperingkat.

Dengan menggabungkan langkah denoising bersilang ini ke dalam satu kelompok, penyelidik boleh menggunakan U-Net untuk memproses kumpulan input berturut-turut dengan cekap.

Imej input yang dikodkan pada langkah masa t dijana dan dinyahkod pada langkah masa t+n, dengan n ialah bilangan langkah penyahkodan. . . Algoritma untuk meningkatkan kesan keadaan asal.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti JermanGambar

Ini boleh membawa faedah seperti meningkatkan kesan gesaan.

Walau bagaimanapun, untuk mengira bunyi sisa bersyarat negatif, setiap pembolehubah pendam input perlu digandingkan dengan pembenaman bersyarat negatif dan dihantar ke U-Net pada setiap masa inferens.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti JermanUntuk menyelesaikan masalah ini, penulis memperkenalkan residual classifier-free bootstrapping (RCFG) yang inovatif

Kaedah ini menggunakan bunyi sisa maya untuk menghampiri keadaan negatif, jadi kita hanya perlu Mampu mengira bunyi bersyarat negatif, sekali gus mengurangkan dengan ketara kos pengiraan inferens U-Net tambahan apabila pembenaman bersyarat negatif

Baris gilir input dan output

Tukar imej input kepada pemformatan data tensor yang boleh diuruskan saluran paip, sebaliknya, sebaliknya, sebaliknya. kepada imej output memerlukan masa pemprosesan tambahan yang tidak boleh diabaikan.

Untuk mengelakkan penambahan masa pemprosesan imej ini pada saluran paip inferens rangkaian saraf, kami mengasingkan imej pra dan pasca pemprosesan kepada urutan yang berbeza, membolehkan pemprosesan selari.

Selain itu, dengan menggunakan baris gilir tensor input, ia juga boleh mengatasi gangguan sementara dalam imej input yang disebabkan oleh kegagalan peranti atau ralat komunikasi, membolehkan penstriman lancar.

gambar

Penapis Persamaan Stokastik

Seperti yang ditunjukkan di bawah, saluran paip inferens resapan teras termasuk VAE dan U-Net.

Meningkatkan kelajuan saluran paip inferens dan mendayakan penjanaan imej masa nyata dengan memperkenalkan penomboran batching dan cache pembenaman pembayang pra-pengiraan, cache hingar sampel dan cache nilai penjadual.

Penapisan Kesamaan Stokastik (SSF) direka untuk menjimatkan penggunaan kuasa GPU dan boleh menutup saluran paip model penyebaran secara dinamik, dengan itu mencapai inferens masa nyata yang pantas dan cekap.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti JermanImej

Pracomputation

Seni bina U-Net memerlukan pembolehubah pendam input dan pembenaman bersyarat.

Biasanya, pembenaman bersyarat diperoleh daripada "pembenaman pembayang" dan kekal tidak berubah antara bingkai yang berbeza.

Untuk mengoptimumkan ini, penyelidik mengira pra-pengiraan benam pembayang dan menyimpannya dalam cache. Dalam mod interaktif atau penstriman, cache pembenaman pembayang prakira ini ditarik balik.

Dalam U-Net, pengiraan kunci dan nilai bagi setiap bingkai dilaksanakan berdasarkan pembenaman petunjuk pra-pengiraan

Oleh itu, penyelidik mengubah suai U-Net untuk menyimpan pasangan kunci dan nilai ini, menjadikannya boleh digunakan semula . Setiap kali gesaan input dikemas kini, penyelidik mengira semula dan mengemas kini pasangan kunci dan nilai ini dalam U-Net.

Model Acceleration and Tiny Autoencoders

Untuk mengoptimumkan kelajuan, kami mengkonfigurasi sistem untuk menggunakan saiz kelompok statik dan saiz input tetap (tinggi dan lebar).

Pendekatan ini memastikan graf pengiraan dan peruntukan memori dioptimumkan untuk saiz input tertentu, menghasilkan pemprosesan yang lebih pantas.

Walau bagaimanapun, ini bermakna jika anda perlu memproses imej bentuk yang berbeza (iaitu ketinggian dan lebar yang berbeza), gunakan saiz kelompok yang berbeza (termasuk saiz kelompok untuk langkah denoising).

Penilaian eksperimen

Penilaian kuantitatif kumpulan penolakan

Rajah 8 menunjukkan perbandingan kecekapan penolakan kelompok dan gelung U-Net berjujukan asal

melaksanakan strategi pemrosesan apabila saya gagal bertambah baik dengan ketara. Ini mengurangkan masa separuh berbanding gelung U-Net tradisional dengan langkah denoising berurutan.

Walaupun dengan alat pecutan modul saraf TensorRT digunakan, pemprosesan kelompok aliran yang dicadangkan oleh penyelidik masih boleh meningkatkan kecekapan saluran paip resapan berjujukan asal dalam langkah penyahnosan yang berbeza dengan ketara.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti JermanImage

Selain itu, penyelidik membandingkan kaedah terkini dengan saluran paip AutoPipeline-ForImage2Image yang dibangunkan oleh Huggingface Diffusers.

Perbandingan masa inferens purata ditunjukkan dalam Jadual 1. Saluran paip terkini menunjukkan bahawa kelajuan telah dipertingkatkan dengan banyak.

Apabila menggunakan TensorRT, StreamDiffusion mampu mencapai kelajuan 13x ganda apabila menjalankan 10 langkah denoising. Apabila hanya satu langkah denoising terlibat, peningkatan kelajuan boleh mencecah 59.6 kali

Walaupun tanpa TensorRT, StreamDiffusion adalah 29.7 kali lebih pantas daripada AutoPipeline apabila menggunakan denoising satu langkah, dan bertambah baik apabila menggunakan denoising 10 langkah 8.3 kali.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti JermanGambar

Jadual 2 membandingkan masa inferens saluran paip resapan aliran menggunakan RCFG dan CFG biasa.

Dalam kes denoising satu langkah, masa inferens Onetime-Negatif RCFG dan CFG tradisional adalah hampir sama.

Jadi masa inferens RCFG Sekali dan CFG tradisional dalam denoising satu langkah adalah hampir sama. Walau bagaimanapun, apabila bilangan langkah denoising meningkat, peningkatan kelajuan inferens daripada CFG tradisional kepada RCFG menjadi lebih jelas.

Dalam langkah 5 menafikan, RCFG Negatif Sendiri adalah 2.05 kali lebih pantas daripada CFG tradisional, dan RCFG Onetime-Negatif ialah 1.79 kali lebih pantas daripada CFG tradisional.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti JermanPictures

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti JermanPictures

Selepas ini, penyelidik menjalankan penilaian menyeluruh terhadap penggunaan tenaga SSF yang dicadangkan. Keputusan proses ini boleh dilihat dalam Rajah 6 dan Rajah 7

Angka-angka ini menggambarkan corak penggunaan GPU apabila menggunakan SSF (menetapkan ambang η kepada 0.98) pada video input kepada adegan yang mengandungi ciri statik berkala

Analisis perbandingan menunjukkan bahawa apabila imej input kebanyakannya adalah imej statik dan mempunyai tahap persamaan yang tinggi, menggunakan SSF boleh mengurangkan penggunaan GPU dengan ketara.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti JermanGambar

Kajian Ablasi

Kesan modul berbeza pada purata masa inferens di bawah langkah denoising berbeza ditunjukkan dalam Jadual 3. Seperti yang dapat dilihat, pengurangan modul yang berbeza disahkan dalam proses penjanaan imej-ke-imej. 🎙 , tanpa menggunakan sebarang bentuk CFG, menunjukkan isyarat penjajaran yang lemah, terutamanya dalam aspek seperti perubahan warna atau menambah elemen yang tidak wujud, yang tidak dilaksanakan dengan cekap.

Sebaliknya, penggunaan CFG atau RCFG meningkatkan keupayaan untuk mengubah suai imej asal, seperti menukar warna rambut, menambah corak badan, atau termasuk objek seperti cermin mata. Terutama, penggunaan RCFG boleh meningkatkan pengaruh isyarat berbanding dengan CFG standard. Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman

Gambar

Akhir sekali, kualiti hasil penjanaan teks-ke-imej standard ditunjukkan dalam Rajah 11.

Menggunakan model sd-turbo, anda boleh menjana imej berkualiti tinggi seperti yang ditunjukkan dalam Rajah 11 dalam satu langkah sahaja.

Apabila menggunakan saluran paip resapan aliran dan model sd-turbo yang dicadangkan oleh penyelidik untuk menjana imej dalam persekitaran GPU: RTX 4090, CPU: Core i9-13900K, OS: Ubuntu 22.04.3 LTS, ia mencapai lebih 100fps Ia boleh dilakukan untuk menghasilkan imej berkualiti tinggi pada kadar yang pantas. .

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti JermanGambar

Alamat projek: https://github.com/cumulo-autumn/StreamDiffusion

Ramai netizen sudah mula menjana isteri dua dimensi sendiri.

Gambar

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti JermanTerdapat juga animasi masa nyata orang sebenar.

Gambar

10x penjanaan lukisan tangan kelajuan.

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti Jerman

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti JermanGambar

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti JermanGambar

Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - platform tersuai arXiv bagi pasukan visual teratas universiti JermanGambar

Bagi yang berminat dengan kasut kanak-kanak, apa kata buat sendiri.

Rujukan:

https://www.php.cn/link/f9d8bf6b7414e900118caa579ea1b7be

99 3aefba4f6cb07254637a6133🎜🎜🎜

Atas ialah kandungan terperinci Melancarkan sistem pengesyoran kertas akademik diperibadikan percuma - 'platform tersuai arXiv' bagi pasukan visual teratas universiti Jerman. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan