


Kertas Stable Diffusion 3 akhirnya telah dikeluarkan, dan butiran seni bina didedahkan Adakah ia akan membantu untuk menghasilkan semula Sora?
Kertas untuk Stable Diffusion 3 akhirnya tiba!
Model ini dikeluarkan dua minggu lalu dan menggunakan seni bina DiT (Diffusion Transformer) yang sama seperti Sora. Ia menimbulkan kekecohan semasa dikeluarkan.
Berbanding dengan versi sebelumnya, kualiti imej yang dijana oleh Stable Diffusion 3 telah dipertingkatkan dengan ketara Ia kini menyokong gesaan berbilang tema, dan kesan penulisan teks juga telah dipertingkatkan, bukan lagi aksara yang bercelaru.
Stability AI menunjukkan bahawa Stable Diffusion 3 ialah satu siri model dengan saiz parameter antara 800M hingga 8B. Julat parameter ini bermakna model boleh dijalankan terus pada banyak peranti mudah alih, dengan ketara menurunkan ambang untuk menggunakan model AI yang besar.
Dalam kertas yang baru dikeluarkan, Stability AI menyatakan bahawa dalam penilaian berasaskan keutamaan manusia, Stable Diffusion 3 mengatasi sistem penjanaan teks-ke-imej terkini seperti DALL・E 3, Midjourney v6, dan Ideogram v1. Tidak lama lagi, mereka akan menjadikan data eksperimen, kod dan berat model kajian tersedia secara terbuka.
Dalam kertas itu, Stability AI mendedahkan lebih banyak butiran tentang Stable Diffusion 3. . .com/Stable+Diffusion+3+Paper.pdf
- Butiran seni bina Untuk penjanaan teks ke imej, model Stable Diffusion 3 mesti mempertimbangkan kedua-dua mod teks dan imej. Oleh itu, pengarang kertas itu memanggil seni bina baharu ini MMDiT, merujuk kepada keupayaannya untuk mengendalikan pelbagai modaliti. Seperti versi Stable Diffusion sebelumnya, penulis menggunakan model pra-latihan untuk memperoleh teks dan perwakilan imej yang sesuai. Khususnya, mereka menggunakan tiga model pembenaman teks yang berbeza—dua model CLIP dan T5—untuk mengekod perwakilan teks dan model pengekodan automatik yang dipertingkatkan untuk mengekod token imej.
- Seni bina model Resapan Stabil 3.
Pengubah resapan berbilang modal yang dipertingkatkan: blok MMDiT.
Seni bina SD3 adalah berdasarkan DiT yang dicadangkan oleh ahli R&D teras Sora William Peebles dan Xie Saining, penolong profesor sains komputer di Universiti New York. Memandangkan pembenaman teks dan pembenaman imej secara konsepnya sangat berbeza, pengarang SD3 menggunakan dua set pemberat yang berbeza untuk kedua-dua modaliti. Seperti yang ditunjukkan dalam rajah di atas, ini bersamaan dengan menyediakan dua transformer bebas untuk setiap modaliti, tetapi menggabungkan jujukan dua modaliti untuk operasi perhatian, supaya kedua-dua perwakilan boleh berfungsi dalam ruang mereka sendiri, Perwakilan lain juga diambil kira. .
Seni bina MMDiT yang dicadangkan oleh pengarang mengatasi prestasi tulang belakang teks-ke-imej seperti UViT dan DiT apabila mengukur kesetiaan visual dan penjajaran teks semasa latihan.
Dengan pendekatan ini, maklumat boleh mengalir antara imej dan token teks, dengan itu meningkatkan pemahaman keseluruhan model dan menambah baik pemformatan teks output yang dijana. Seperti yang dibincangkan dalam kertas kerja, seni bina ini juga mudah diperluaskan kepada pelbagai modaliti seperti video.
Terima kasih kepada keupayaan berikutan pantas Stable Diffusion 3 yang dipertingkatkan, model baharu ini mempunyai keupayaan untuk menghasilkan imej yang memfokus pada pelbagai tema dan kualiti yang berbeza, di samping sangat fleksibel dalam gaya imej itu sendiri.
Peningkatan Aliran Diperbetulkan melalui pemberat semula
Stable Diffusion 3 menggunakan formula Rectified Flow (RF) Semasa proses latihan, data dan hingar disambungkan dalam trajektori linear. Ini menjadikan laluan inferens lebih lurus, sekali gus mengurangkan langkah pensampelan. Selain itu, penulis juga memperkenalkan skim pensampelan trajektori baharu semasa proses latihan. Mereka membuat hipotesis bahawa bahagian tengah trajektori akan menimbulkan tugas ramalan yang lebih mencabar, jadi skema itu memberi lebih berat kepada bahagian tengah trajektori. Mereka membandingkan menggunakan berbilang set data, metrik dan tetapan pensampel dan menguji kaedah cadangan mereka terhadap 60 trajektori resapan lain seperti LDM, EDM dan ADM. Keputusan menunjukkan bahawa walaupun prestasi formulasi RF sebelumnya bertambah baik dengan beberapa langkah pensampelan, prestasi relatifnya berkurangan apabila bilangan langkah meningkat. Sebaliknya, varian RF wajaran semula yang dicadangkan oleh pengarang secara konsisten meningkatkan prestasi. . Mereka melatih model antara 15 blok dengan parameter 450M hingga 38 blok dengan parameter 8B dan memerhatikan bahawa kehilangan pengesahan menurun dengan lancar dengan peningkatan saiz model dan langkah latihan (bahagian pertama rajah di atas OK). Untuk mengkaji sama ada ini diterjemahkan kepada peningkatan yang bermakna dalam output model, penulis juga menilai metrik penjajaran imej automatik (GenEval) dan skor keutamaan manusia (ELO) (baris kedua di atas). Keputusan menunjukkan korelasi yang kuat antara metrik ini dan kehilangan pengesahan, menunjukkan bahawa yang terakhir adalah peramal yang baik bagi prestasi keseluruhan model. Tambahan pula, trend penskalaan tidak menunjukkan tanda-tanda tepu, menjadikan pengarang optimis untuk terus meningkatkan prestasi model pada masa hadapan.
Pengekod teks fleksibel
Dengan mengalih keluar pengekod teks T5 parameter 4.7B intensif memori yang digunakan untuk inferens, keperluan memori SD3 boleh dikurangkan dengan ketara dengan kehilangan prestasi yang minimum. Seperti yang ditunjukkan, mengalih keluar pengekod teks ini tidak memberi kesan pada estetika visual (kadar kemenangan 50% tanpa T5) dan hanya mengurangkan sedikit konsistensi teks (kadar kemenangan 46%). Walau bagaimanapun, penulis mengesyorkan menambah T5 apabila menjana teks bertulis untuk menggunakan sepenuhnya prestasi SD3, kerana mereka mendapati bahawa tanpa menambah T5, prestasi penjanaan taip menurun lebih banyak lagi (kadar kemenangan 38%), seperti yang ditunjukkan dalam rajah di bawah:
Hanya apabila mengemukakan gesaan yang sangat kompleks yang melibatkan banyak butiran atau sejumlah besar teks bertulis akan pengalihan keluar T5 untuk inferens mengakibatkan penurunan prestasi yang ketara. Imej di atas menunjukkan tiga sampel rawak bagi setiap contoh.
Prestasi Model
Pengarang membandingkan imej keluaran Stable Diffusion 3 dengan pelbagai model sumber terbuka lain (termasuk SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 dan Pixart-α) serta sumber tertutup model seperti DALL -E 3, Midjourney v6 dan Ideogram v1) dibandingkan untuk menilai prestasi berdasarkan maklum balas manusia. Dalam ujian ini, penilai manusia diberikan contoh output daripada setiap model dan dinilai berdasarkan sejauh mana output model mengikut konteks gesaan yang diberikan (prompt following), seberapa baik teks dipaparkan mengikut prompt (tipografi), dan yang mana. imej Imej dengan estetika visual yang lebih tinggi dipilih untuk hasil terbaik.
Ditanda aras dengan SD3, carta ini menggariskan kadar kemenangannya berdasarkan penilaian manusia terhadap estetika visual, mengikuti segera dan reka letak teks.
Daripada keputusan ujian, penulis mendapati bahawa Stable Diffusion 3 adalah bersamaan atau lebih baik daripada sistem penjanaan teks-ke-imej terkini dalam semua aspek di atas.
Dalam ujian inferens awal yang tidak dioptimumkan pada perkakasan pengguna, model SD3 parameter 8B terbesar sesuai dengan 24GB VRAM RTX 4090, mengambil masa 34 saat untuk menjana imej pada resolusi 1024x1024 menggunakan 50 langkah pensampelan.
Selain itu, pada keluaran awal, Stable Diffusion 3 akan tersedia dalam pelbagai varian, antara model parametrik 800m hingga 8B untuk menghapuskan lagi halangan perkakasan.
Sila rujuk kertas asal untuk butiran lanjut.
Pautan rujukan: https://stability.ai/news/stable-diffusion-3-research-paper
Atas ialah kandungan terperinci Kertas Stable Diffusion 3 akhirnya telah dikeluarkan, dan butiran seni bina didedahkan Adakah ia akan membantu untuk menghasilkan semula Sora?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Sepuluh aplikasi perdagangan mata wang maya di 2025 adalah seperti berikut: 1. Okx, 2. Binance, 3. Gate.io, 4. Bybit, 5. Kraken, 6. Kucoin, 7. Bitget, 8. HTX, 9. Kedudukan ini berdasarkan penilaian komprehensif seperti keselamatan, kecairan, pengalaman pengguna dan kekayaan ciri.

Sepuluh aplikasi perdagangan mata wang maya digital di 2025 adalah seperti berikut: 1. Okx, 2. Binance, 3. Gate.io, 4. Bybit, 5. Kraken, 6. Kucoin, 7. Kedudukan ini berdasarkan penilaian komprehensif seperti keselamatan, kecairan, pengalaman pengguna dan kekayaan ciri.

Rangkaian PI belum melancarkan perdagangan secara rasmi di bursa arus perdana. Sehingga 2024, PI masih berada di peringkat menutup rangkaian utama, dan hanya beberapa pertukaran kecil dan sederhana yang memberikan urus niaga IOU. Pegawai tidak membenarkan sebarang urus niaga. Adalah disyorkan untuk saya melalui saluran rasmi dan menunggu rangkaian utama membuka dan berdagang di bursa yang mematuhi.

Sepuluh aplikasi perdagangan mata wang maya di 2025 adalah seperti berikut: 1. Okx, 2. Binance, 3. Gate.io, 4. Bybit, 5. Kraken, 6. Kucoin, 7. Bitget, 8. HTX, 9. Kedudukan ini berdasarkan penilaian komprehensif seperti keselamatan, kecairan, pengalaman pengguna dan kekayaan ciri.

Sehingga 2024, pertukaran utama yang masih menyokong rantaian HECO atau token HECO: 1. HTX (dahulunya Huobi Huobi), secara rasmi menyokong rantaian HECO USDT dan perdagangan token; 2. MDEX, berdasarkan HECO DEX, menyokong perdagangan token rantaian HECO; 3. Gate.io, menyokong penambahan dan penarikan beberapa token rantai HECO; 4. Kucoin, beberapa token rantai HECO masih boleh didagangkan; 5. Pertukaran yang terdesentralisasi seperti Pancakeswap dan UniSwap, perlu transaksi rantaian silang, memberi perhatian kepada kecairan yang rendah rantaian HECO dan penghijrahan projek.

Selesaikan masalah antara muka pihak ketiga yang kembali 403 dalam persekitaran Node.js. Apabila kita menggunakan Node.js untuk memanggil antara muka pihak ketiga, kita kadang-kadang menghadapi kesilapan 403 dari antara muka yang kembali 403 ...

Kaedah mengendalikan kegagalan e -mel Laravel untuk menghantar kod pengesahan adalah menggunakan Laravel ...

Bagaimana untuk menetapkan keizinan UnixSocket secara automatik selepas sistem dimulakan semula. Setiap kali sistem dimulakan semula, kita perlu melaksanakan perintah berikut untuk mengubahsuai keizinan UnixSocket: sudo ...
