Kertas Stable Diffusion 3 akhirnya telah dikeluarkan, dan butiran seni bina didedahkan Adakah ia akan membantu untuk menghasilkan semula Sora?-AI-php.cn

Jadual Kandungan

Peningkatan Aliran Diperbetulkan melalui pemberat semula

Hanya apabila mengemukakan gesaan yang sangat kompleks yang melibatkan banyak butiran atau sejumlah besar teks bertulis akan pengalihan keluar T5 untuk inferens mengakibatkan penurunan prestasi yang ketara. Imej di atas menunjukkan tiga sampel rawak bagi setiap contoh.

Ditanda aras dengan SD3, carta ini menggariskan kadar kemenangannya berdasarkan penilaian manusia terhadap estetika visual, mengikuti segera dan reka letak teks.

Rumah

Peranti teknologi

Kertas Stable Diffusion 3 akhirnya telah dikeluarkan, dan butiran seni bina didedahkan Adakah ia akan membantu untuk menghasilkan semula Sora?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 06, 2024 pm 05:34 PM

ai teknologi kertas

Kertas untuk Stable Diffusion 3 akhirnya tiba!

Model ini dikeluarkan dua minggu lalu dan menggunakan seni bina DiT (Diffusion Transformer) yang sama seperti Sora. Ia menimbulkan kekecohan semasa dikeluarkan.

Berbanding dengan versi sebelumnya, kualiti imej yang dijana oleh Stable Diffusion 3 telah dipertingkatkan dengan ketara Ia kini menyokong gesaan berbilang tema, dan kesan penulisan teks juga telah dipertingkatkan, bukan lagi aksara yang bercelaru.

Stability AI menunjukkan bahawa Stable Diffusion 3 ialah satu siri model dengan saiz parameter antara 800M hingga 8B. Julat parameter ini bermakna model boleh dijalankan terus pada banyak peranti mudah alih, dengan ketara menurunkan ambang untuk menggunakan model AI yang besar.

Dalam kertas yang baru dikeluarkan, Stability AI menyatakan bahawa dalam penilaian berasaskan keutamaan manusia, Stable Diffusion 3 mengatasi sistem penjanaan teks-ke-imej terkini seperti DALL・E 3, Midjourney v6, dan Ideogram v1. Tidak lama lagi, mereka akan menjadikan data eksperimen, kod dan berat model kajian tersedia secara terbuka.

Stable Diffusion 3论文终于发布，架构细节大揭秘，对复现Sora有帮助？

Dalam kertas itu, Stability AI mendedahkan lebih banyak butiran tentang Stable Diffusion 3. . .com/Stable+Diffusion+3+Paper.pdf

Stable Diffusion 3论文终于发布，架构细节大揭秘，对复现Sora有帮助？

Butiran seni bina
Seni bina model Resapan Stabil 3.

Pengubah resapan berbilang modal yang dipertingkatkan: blok MMDiT.

Seni bina SD3 adalah berdasarkan DiT yang dicadangkan oleh ahli R&D teras Sora William Peebles dan Xie Saining, penolong profesor sains komputer di Universiti New York. Memandangkan pembenaman teks dan pembenaman imej secara konsepnya sangat berbeza, pengarang SD3 menggunakan dua set pemberat yang berbeza untuk kedua-dua modaliti. Seperti yang ditunjukkan dalam rajah di atas, ini bersamaan dengan menyediakan dua transformer bebas untuk setiap modaliti, tetapi menggabungkan jujukan dua modaliti untuk operasi perhatian, supaya kedua-dua perwakilan boleh berfungsi dalam ruang mereka sendiri, Perwakilan lain juga diambil kira. . Stable Diffusion 3论文终于发布，架构细节大揭秘，对复现Sora有帮助？

Seni bina MMDiT yang dicadangkan oleh pengarang mengatasi prestasi tulang belakang teks-ke-imej seperti UViT dan DiT apabila mengukur kesetiaan visual dan penjajaran teks semasa latihan. Stable Diffusion 3论文终于发布，架构细节大揭秘，对复现Sora有帮助？

Dengan pendekatan ini, maklumat boleh mengalir antara imej dan token teks, dengan itu meningkatkan pemahaman keseluruhan model dan menambah baik pemformatan teks output yang dijana. Seperti yang dibincangkan dalam kertas kerja, seni bina ini juga mudah diperluaskan kepada pelbagai modaliti seperti video.

Terima kasih kepada keupayaan berikutan pantas Stable Diffusion 3 yang dipertingkatkan, model baharu ini mempunyai keupayaan untuk menghasilkan imej yang memfokus pada pelbagai tema dan kualiti yang berbeza, di samping sangat fleksibel dalam gaya imej itu sendiri. Stable Diffusion 3论文终于发布，架构细节大揭秘，对复现Sora有帮助？

Stable Diffusion 3论文终于发布，架构细节大揭秘，对复现Sora有帮助？

Peningkatan Aliran Diperbetulkan melalui pemberat semula

Stable Diffusion 3 menggunakan formula Rectified Flow (RF) Semasa proses latihan, data dan hingar disambungkan dalam trajektori linear. Ini menjadikan laluan inferens lebih lurus, sekali gus mengurangkan langkah pensampelan. Selain itu, penulis juga memperkenalkan skim pensampelan trajektori baharu semasa proses latihan. Mereka membuat hipotesis bahawa bahagian tengah trajektori akan menimbulkan tugas ramalan yang lebih mencabar, jadi skema itu memberi lebih berat kepada bahagian tengah trajektori. Mereka membandingkan menggunakan berbilang set data, metrik dan tetapan pensampel dan menguji kaedah cadangan mereka terhadap 60 trajektori resapan lain seperti LDM, EDM dan ADM. Keputusan menunjukkan bahawa walaupun prestasi formulasi RF sebelumnya bertambah baik dengan beberapa langkah pensampelan, prestasi relatifnya berkurangan apabila bilangan langkah meningkat. Sebaliknya, varian RF wajaran semula yang dicadangkan oleh pengarang secara konsisten meningkatkan prestasi. . Mereka melatih model antara 15 blok dengan parameter 450M hingga 38 blok dengan parameter 8B dan memerhatikan bahawa kehilangan pengesahan menurun dengan lancar dengan peningkatan saiz model dan langkah latihan (bahagian pertama rajah di atas OK). Untuk mengkaji sama ada ini diterjemahkan kepada peningkatan yang bermakna dalam output model, penulis juga menilai metrik penjajaran imej automatik (GenEval) dan skor keutamaan manusia (ELO) (baris kedua di atas). Keputusan menunjukkan korelasi yang kuat antara metrik ini dan kehilangan pengesahan, menunjukkan bahawa yang terakhir adalah peramal yang baik bagi prestasi keseluruhan model. Tambahan pula, trend penskalaan tidak menunjukkan tanda-tanda tepu, menjadikan pengarang optimis untuk terus meningkatkan prestasi model pada masa hadapan.

Stable Diffusion 3论文终于发布，架构细节大揭秘，对复现Sora有帮助？ Pengekod teks fleksibel

Dengan mengalih keluar pengekod teks T5 parameter 4.7B intensif memori yang digunakan untuk inferens, keperluan memori SD3 boleh dikurangkan dengan ketara dengan kehilangan prestasi yang minimum. Seperti yang ditunjukkan, mengalih keluar pengekod teks ini tidak memberi kesan pada estetika visual (kadar kemenangan 50% tanpa T5) dan hanya mengurangkan sedikit konsistensi teks (kadar kemenangan 46%). Walau bagaimanapun, penulis mengesyorkan menambah T5 apabila menjana teks bertulis untuk menggunakan sepenuhnya prestasi SD3, kerana mereka mendapati bahawa tanpa menambah T5, prestasi penjanaan taip menurun lebih banyak lagi (kadar kemenangan 38%), seperti yang ditunjukkan dalam rajah di bawah:

Hanya apabila mengemukakan gesaan yang sangat kompleks yang melibatkan banyak butiran atau sejumlah besar teks bertulis akan pengalihan keluar T5 untuk inferens mengakibatkan penurunan prestasi yang ketara. Imej di atas menunjukkan tiga sampel rawak bagi setiap contoh.

Prestasi Model

Stable Diffusion 3论文终于发布，架构细节大揭秘，对复现Sora有帮助？ Pengarang membandingkan imej keluaran Stable Diffusion 3 dengan pelbagai model sumber terbuka lain (termasuk SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 dan Pixart-α) serta sumber tertutup model seperti DALL -E 3, Midjourney v6 dan Ideogram v1) dibandingkan untuk menilai prestasi berdasarkan maklum balas manusia. Dalam ujian ini, penilai manusia diberikan contoh output daripada setiap model dan dinilai berdasarkan sejauh mana output model mengikut konteks gesaan yang diberikan (prompt following), seberapa baik teks dipaparkan mengikut prompt (tipografi), dan yang mana. imej Imej dengan estetika visual yang lebih tinggi dipilih untuk hasil terbaik.

Ditanda aras dengan SD3, carta ini menggariskan kadar kemenangannya berdasarkan penilaian manusia terhadap estetika visual, mengikuti segera dan reka letak teks.

Daripada keputusan ujian, penulis mendapati bahawa Stable Diffusion 3 adalah bersamaan atau lebih baik daripada sistem penjanaan teks-ke-imej terkini dalam semua aspek di atas.

Stable Diffusion 3论文终于发布，架构细节大揭秘，对复现Sora有帮助？ Dalam ujian inferens awal yang tidak dioptimumkan pada perkakasan pengguna, model SD3 parameter 8B terbesar sesuai dengan 24GB VRAM RTX 4090, mengambil masa 34 saat untuk menjana imej pada resolusi 1024x1024 menggunakan 50 langkah pensampelan.

Selain itu, pada keluaran awal, Stable Diffusion 3 akan tersedia dalam pelbagai varian, antara model parametrik 800m hingga 8B untuk menghapuskan lagi halangan perkakasan.

Stable Diffusion 3论文终于发布，架构细节大揭秘，对复现Sora有帮助？

Sila rujuk kertas asal untuk butiran lanjut.

Pautan rujukan: https://stability.ai/news/stable-diffusion-3-research-paper

Atas ialah kandungan terperinci Kertas Stable Diffusion 3 akhirnya telah dikeluarkan, dan butiran seni bina didedahkan Adakah ia akan membantu untuk menghasilkan semula Sora?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Repo: Cara menghidupkan semula rakan sepasukan

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Cara mendapatkan biji gergasi

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?

3 minggu yang lalu By DDD

R.E.P.O. Simpan Fail Lokasi: Di manakah & bagaimana untuk melindunginya?

3 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7319

Tutorial Java

1625

Tutorial CakePHP

1349

Tutorial Laravel

1261

Tutorial PHP

1209

Tunjukkan Lagi

Related knowledge

Kedudukan terbaru dari Pertukaran Aplikasi Mata Wang Sepuluh Maya di Bulatan Mata Wang 2025 Mar 27, 2025 pm 07:27 PM

Sepuluh aplikasi perdagangan mata wang maya di 2025 adalah seperti berikut: 1. Okx, 2. Binance, 3. Gate.io, 4. Bybit, 5. Kraken, 6. Kucoin, 7. Bitget, 8. HTX, 9. Kedudukan ini berdasarkan penilaian komprehensif seperti keselamatan, kecairan, pengalaman pengguna dan kekayaan ciri.

Ringkasan Sepuluh Aplikasi Aplikasi Pertukaran Mata Wang Maya Digital Teratas pada tahun 2025 Mar 27, 2025 pm 07:18 PM

Sepuluh aplikasi perdagangan mata wang maya digital di 2025 adalah seperti berikut: 1. Okx, 2. Binance, 3. Gate.io, 4. Bybit, 5. Kraken, 6. Kucoin, 7. Kedudukan ini berdasarkan penilaian komprehensif seperti keselamatan, kecairan, pengalaman pengguna dan kekayaan ciri.

Pertukaran yang menerbitkan berita PI Mar 28, 2025 pm 03:33 PM

Rangkaian PI belum melancarkan perdagangan secara rasmi di bursa arus perdana. Sehingga 2024, PI masih berada di peringkat menutup rangkaian utama, dan hanya beberapa pertukaran kecil dan sederhana yang memberikan urus niaga IOU. Pegawai tidak membenarkan sebarang urus niaga. Adalah disyorkan untuk saya melalui saluran rasmi dan menunggu rangkaian utama membuka dan berdagang di bursa yang mematuhi.

TOP10 Platform Pertukaran Mata Wang Maya Selamat dan Mudah Digunakan Mar 27, 2025 pm 07:06 PM

Pertukaran mana yang menyokong HECO Mar 28, 2025 pm 03:36 PM

Sehingga 2024, pertukaran utama yang masih menyokong rantaian HECO atau token HECO: 1. HTX (dahulunya Huobi Huobi), secara rasmi menyokong rantaian HECO USDT dan perdagangan token; 2. MDEX, berdasarkan HECO DEX, menyokong perdagangan token rantaian HECO; 3. Gate.io, menyokong penambahan dan penarikan beberapa token rantai HECO; 4. Kucoin, beberapa token rantai HECO masih boleh didagangkan; 5. Pertukaran yang terdesentralisasi seperti Pancakeswap dan UniSwap, perlu transaksi rantaian silang, memberi perhatian kepada kecairan yang rendah rantaian HECO dan penghijrahan projek.

Bagaimana untuk menyelesaikan masalah antara muka pihak ketiga yang kembali 403 dalam persekitaran Node.js? Mar 31, 2025 pm 11:27 PM

Selesaikan masalah antara muka pihak ketiga yang kembali 403 dalam persekitaran Node.js. Apabila kita menggunakan Node.js untuk memanggil antara muka pihak ketiga, kita kadang-kadang menghadapi kesilapan 403 dari antara muka yang kembali 403 ...

Di Laravel, bagaimana menangani situasi di mana kod pengesahan gagal dihantar melalui e -mel? Mar 31, 2025 pm 11:48 PM

Kaedah mengendalikan kegagalan e -mel Laravel untuk menghantar kod pengesahan adalah menggunakan Laravel ...

Bagaimana cara menetapkan kebenaran secara automatik UnixSocket selepas sistem dimulakan semula? Mar 31, 2025 pm 11:54 PM

Bagaimana untuk menetapkan keizinan UnixSocket secara automatik selepas sistem dimulakan semula. Setiap kali sistem dimulakan semula, kita perlu melaksanakan perintah berikut untuk mengubahsuai keizinan UnixSocket: sudo ...

See all articles