


IPhone mengambil masa dua saat untuk menghasilkan gambar, dan model Stable Diffusion mudah alih yang paling cepat diketahui ada di sini.
Resapan Stabil (SD) ialah model resapan penjanaan teks kepada imej yang paling popular. Walaupun keupayaan penjanaan imej yang berkuasa mengejutkan, kelemahan yang jelas ialah ia memerlukan sumber pengkomputeran yang besar dan kelajuan inferens sangat perlahan: mengambil SD-v1.5 sebagai contoh, walaupun menggunakan storan separuh ketepatan, saiz modelnya ialah 1.7GB . Dengan 1 bilion parameter, masa inferens pada peranti selalunya hampir 2 minit.
Untuk menyelesaikan masalah kelajuan inferens, akademia dan industri telah memulakan penyelidikan mengenai pecutan SD, terutamanya memfokuskan kepada dua laluan: (1) mengurangkan bilangan langkah inferens, laluan ini boleh Dibahagikan kepada dua sub-laluan, satu adalah untuk mengurangkan bilangan langkah dengan mencadangkan penjadual bunyi yang lebih baik, kerja-kerja perwakilan adalah DDIM [1], PNDM [2], DPM [3], dan lain-lain; bilangan langkah melalui penyulingan progresif (Penyulingan Progresif) Bilangan langkah, kerja perwakilan ialah Penyulingan Progresif [4] dan penyaman w [5], dsb. (2) Pengoptimuman kemahiran kejuruteraan Tugas perwakilan ialah Qualcomm menggunakan pengoptimuman int8 + pengoptimuman tindanan penuh untuk mencapai SD-v1.5 pada telefon Android dalam masa 15 saat [6]. .4 pada telefon Samsung pecutan kepada 12s [7].
Walaupun usaha ini telah berjalan jauh, ia masih belum cukup pantas.
Baru-baru ini, Snap Research Institute melancarkan model Stable Diffusion berprestasi tinggi terkini Dengan mengoptimumkan struktur rangkaian, proses latihan dan fungsi kehilangan dalam semua aspek, ia boleh menghasilkan imej dalam masa 2 saat pada iPhone 14 Pro (512x512), dan mencapai skor CLIP yang lebih baik daripada SD-v1.5. Ini ialah model Resapan Stabil hujung ke hujung yang paling cepat diketahui!
- Alamat kertas: https://arxiv.org/pdf/2306.00980.pdf
- Laman web: https://snap-research.github.io/SnapFusion
Kaedah Teras
Model Resapan Stabil terbahagi kepada tiga bahagian: pengekod/penyahkod VAE, pengekod teks dan UNet Antaranya, UNet menyumbang majoriti mutlak dari segi jumlah parameter dan jumlah pengiraan, jadi SnapFusion terutamanya. mengoptimumkan UNet. Ia dibahagikan kepada dua bahagian: (1) Pengoptimuman struktur UNet: Dengan menganalisis kesesakan kelajuan UNet asal, artikel ini mencadangkan satu set proses penilaian dan evolusi automatik untuk struktur UNet, dan memperoleh struktur UNet yang lebih cekap ( dipanggil Efficient UNet) . (2) Pengoptimuman bilangan langkah inferens: Seperti yang kita semua tahu, model resapan ialah proses denoising berulang semasa inferens Semakin banyak langkah lelaran, semakin tinggi kualiti imej yang dihasilkan, tetapi kos masa juga meningkat secara linear dengan bilangan langkah lelaran. Untuk mengurangkan bilangan langkah dan mengekalkan kualiti imej, kami mencadangkan fungsi kehilangan penyulingan sedar CFG yang secara eksplisit mempertimbangkan peranan CFG (Bimbingan Tanpa Pengelas) semasa proses latihan ini terbukti menjadi kunci kepada meningkatkan skor CLIP!
Jadual berikut ialah perbandingan gambaran keseluruhan antara model SD-v1.5 dan SnapFusion. Dapat dilihat bahawa peningkatan kelajuan datang daripada dua bahagian, penyahkod UNet dan VAE dan UNet bahagian adalah yang besar. Terdapat dua aspek untuk penambahbaikan bahagian UNet Satu ialah pengurangan kependaman tunggal (1700ms -> 230ms, 7.4x pecutan), yang diperoleh melalui cadangan struktur UNet yang Efisien. 50 -> 8, 6.25 x pecutan), yang diperoleh melalui Penyulingan sedar CFG yang dicadangkan. Penyahkod VAE dipercepatkan melalui pemangkasan berstruktur.
Berikut memfokuskan pada reka bentuk UNet Cekap dan reka bentuk fungsi kehilangan Penyulingan sedar CFG.
(1) Efficient UNet
Kami mencari kelajuan dengan menganalisis modul Cross-Attention dan ResNet dalam UNet Kesesakan terletak pada modul Cross-Attention (terutamanya Cross-Attention dalam peringkat Downsample pertama), seperti yang ditunjukkan dalam rajah di bawah. Punca masalah ini ialah kerumitan modul perhatian mempunyai hubungan segi empat sama dengan saiz spatial peta ciri Pada peringkat Downsample pertama, saiz spatial peta ciri masih besar, mengakibatkan kerumitan pengiraan yang tinggi.
Untuk mengoptimumkan struktur UNet, kami mencadangkan satu set proses penilaian automatik dan evolusi struktur UNet: mula-mula menjalankan latihan yang mantap pada UNet, dan secara rawak menggugurkan beberapa modul semasa latihan untuk menguji setiap Impak sebenar setiap modul pada prestasi digunakan untuk membina jadual carian "kesan pada skor CLIP vs. kependaman"; dan kemudian berdasarkan jadual carian, keutamaan diberikan untuk mengalih keluar modul yang mempunyai sedikit kesan pada skor CLIP dan sangat memakan masa. Set proses ini dilakukan secara automatik dalam talian Selepas selesai, kami akan mendapat struktur UNet baharu yang dipanggil Efficient UNet. Berbanding dengan UNet asal, ia mencapai pecutan 7.4x tanpa penurunan prestasi.
(2) Penyulingan Langkah CFG-aware
CFG (Bimbingan Tanpa Pengelas) ialah peringkat inferens SD Kemahiran penting yang boleh meningkatkan kualiti gambar, sangat penting! Walaupun terdapat kerja pada model resapan menggunakan penyulingan langkah untuk mempercepatkan [4], mereka tidak memasukkan CFG sebagai matlamat pengoptimuman dalam latihan penyulingan Maksudnya, fungsi kehilangan penyulingan tidak mengetahui bahawa CFG akan digunakan kemudian. Menurut pemerhatian kami, ini akan menjejaskan skor CLIP secara serius apabila bilangan langkah adalah kecil.
Untuk menyelesaikan masalah ini, kami mencadangkan untuk membenarkan kedua-dua model guru dan pelajar melakukan CFG sebelum mengira fungsi kehilangan penyulingan, supaya fungsi kehilangan dikira pada ciri selepas CFG , oleh itu Kesan skala CFG yang berbeza dipertimbangkan secara eksplisit. Dalam percubaan, kami mendapati bahawa walaupun skor CLIP boleh dipertingkatkan dengan sepenuhnya menggunakan Penyulingan sedar CFG, FID juga menjadi lebih teruk dengan ketara. Kami kemudiannya mencadangkan skim pensampelan rawak untuk mencampurkan fungsi kehilangan Penyulingan Langkah asal dan fungsi kehilangan Penyulingan sedar CFG, mencapai kewujudan bersama kelebihan kedua-duanya, yang bukan sahaja meningkatkan skor CLIP dengan ketara, tetapi juga tidak memburukkan FID. . Langkah ini mencapai pecutan 6.25 kali dalam peringkat inferens selanjutnya, mencapai jumlah pecutan lebih kurang 46 kali.
Selain daripada dua sumbangan utama di atas, artikel itu juga termasuk pecutan pemangkasan penyahkod VAE dan reka bentuk proses penyulingan yang teliti. Sila rujuk kertas untuk kandungan tertentu.
Hasil eksperimen
SnapFusion menanda aras SD-v1.5 fungsi teks ke imej, matlamatnya adalah untuk mengurangkan masa inferens dengan ketara sambil mengekalkan kualiti imej, yang paling menggambarkan Ini adalah ditunjukkan dalam rajah di bawah:
Angka ini secara rawak memilih 30K pasangan imej kapsyen pada set pengesahan MS COCO'14 untuk mengira skor CLIP dan FID. Skor CLIP mengukur ketekalan semantik antara gambar dan teks, lebih besar lebih baik FID mengukur jarak pengedaran antara gambar yang dijana dan gambar sebenar (biasanya dianggap sebagai ukuran kepelbagaian gambar yang dihasilkan), lebih kecil lebih baik. Titik yang berbeza dalam graf diperoleh menggunakan skala CFG yang berbeza, dan setiap skala CFG sepadan dengan titik data. Seperti yang dapat dilihat dari rajah, kaedah kami (garis merah) boleh mencapai FID terendah yang sama seperti SD-v1.5 (garis biru), dan pada masa yang sama, skor CLIP kaedah kami adalah lebih baik. Perlu diingat bahawa SD-v1.5 mengambil masa 1.4 minit untuk menjana imej, manakala SnapFusion hanya mengambil masa 1.84s Ini juga merupakan model Stable Diffusion mudah alih yang kami ketahui!
Berikut ialah beberapa sampel yang dihasilkan oleh SnapFusion:
Lebih banyak sampel Sila rujuk lampiran artikel.
Selain keputusan utama ini, artikel itu juga menunjukkan banyak eksperimen Kajian Ablasi, dengan harapan dapat memberikan pengalaman rujukan untuk pembangunan model SD yang cekap:
(1) Kerja sebelumnya mengenai Penyulingan Langkah biasanya menggunakan skema progresif [4, 5], tetapi kami mendapati bahawa penyulingan progresif tidak mempunyai kelebihan berbanding penyulingan langsung pada model SD, dan prosesnya adalah rumit, jadi kami Penyulingan langsung skema digunakan dalam artikel ini.
(2) Walaupun CFG boleh meningkatkan kualiti imej dengan banyak, harganya menggandakan kos inferens. Artikel Mengenai Penyulingan Calon Anugerah CVPR'23 tahun ini [5] mencadangkan penyamanan w, yang menggunakan parameter CFG sebagai input kepada UNet untuk penyulingan (model yang terhasil dipanggil UNet berhawa dingin), dengan itu menghapuskan langkah CFG semasa membuat penaakulan dan merealisasikan penaakulan kos. Walau bagaimanapun, kami mendapati bahawa berbuat demikian sebenarnya akan menyebabkan kualiti imej berkurangan dan skor CLIP menurun (seperti yang ditunjukkan dalam rajah di bawah, skor CLIP bagi empat baris berhawa dingin tidak melebihi 0.30, yang lebih buruk daripada SD- v1.5). Kaedah kami boleh mengurangkan bilangan langkah dan meningkatkan skor CLIP pada masa yang sama, terima kasih kepada fungsi kehilangan penyulingan sedar CFG yang dicadangkan! Apa yang patut diberi perhatian adalah bahawa kos inferens garis hijau (berhawa dingin, 16 langkah) dan garis oren (Kami, 8 langkah) dalam rajah di bawah adalah sama, tetapi garis oren jelas lebih baik, menunjukkan bahawa kami laluan teknikal adalah lebih baik daripada penyaman udara w [5] adalah lebih berkesan pada model SD berpandukan CFG suling.
(3) Kerja Penyulingan Langkah sedia ada [4, 5] tidak menggabungkan fungsi kehilangan asal dan penyulingan. fungsi kehilangan ditambah bersama Rakan yang biasa dengan penyulingan pengetahuan klasifikasi imej harus tahu bahawa reka bentuk ini secara intuitif tidak optimum. Jadi kami mencadangkan untuk menambah fungsi kehilangan asal kepada latihan, seperti yang ditunjukkan dalam rajah di bawah, yang sememangnya berkesan (sedikit mengurangkan FID).
Ringkasan dan kerja masa hadapan
Kertas kerja ini mencadangkan SnapFusion, model Resapan Stabil berprestasi tinggi untuk terminal mudah alih. SnapFusion mempunyai dua sumbangan teras: (1) Melalui analisis lapisan demi lapisan bagi UNet sedia ada, ia mengesan kesesakan kelajuan dan mencadangkan struktur UNet yang cekap baharu (Efficient UNet), yang boleh menggantikan UNet secara setara dalam Stable Diffusion yang asal kepada mencapai 7.4 x pecutan; (2) Optimumkan bilangan langkah lelaran dalam fasa inferens dan cadangkan skim penyulingan langkah baharu (Penyulingan Langkah sedar CFG), yang boleh meningkatkan markah CLIP dengan ketara sambil mengurangkan bilangan langkah, mencapai 6.25x pecutan. Secara keseluruhan, SnapFusion mencapai output imej dalam masa 2 saat pada iPhone 14 Pro, yang kini merupakan model Stable Diffusion mudah alih yang paling cepat diketahui.
Kerja masa hadapan:
1 Model SD boleh digunakan dalam pelbagai senario penjanaan imej, ini artikel terhad kepada Disebabkan kekangan masa, kami pada masa ini hanya menumpukan pada tugas teras teks ke imej, dan tugas lain (seperti mengecat, ControlNet, dll.) akan diikuti kemudian.
2. Artikel ini tertumpu terutamanya pada peningkatan kelajuan dan tidak mengoptimumkan storan model. Kami percaya bahawa Efficient UNet yang dicadangkan masih mempunyai ruang untuk pemampatan Digabungkan dengan kaedah pengoptimuman berprestasi tinggi yang lain (seperti pemangkasan, kuantisasi), ia dijangka mengecilkan storan dan mengurangkan masa kepada kurang daripada 1 saat, menjadikan SD masa nyata. pada akhirnya selangkah lebih jauh.
Atas ialah kandungan terperinci IPhone mengambil masa dua saat untuk menghasilkan gambar, dan model Stable Diffusion mudah alih yang paling cepat diketahui ada di sini.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh
