Keperluan perkakasan semakin rendah dan kelajuan penjanaan semakin pantas.
Stability AI, sebagai perintis dalam teks-ke-imej, bukan sahaja menerajui trend, tetapi juga terus membuat penemuan baharu dalam kualiti model. Kali ini, ia mencapai kejayaan dalam prestasi kos.
Hanya beberapa hari yang lalu, Stability AI membuat satu lagi langkah baharu: versi pratonton penyelidikan Stable Cascade telah dilancarkan. Model teks-ke-imej ini berinovasi dengan memperkenalkan pendekatan tiga peringkat yang menetapkan penanda aras baharu untuk kualiti, fleksibiliti, penalaan halus dan kecekapan, dengan tumpuan untuk menghapuskan lagi halangan perkakasan. Selain itu, Stability AI mengeluarkan latihan dan kod inferens, membolehkan penyesuaian lanjut model dan outputnya. Model ini tersedia untuk inferens dalam perpustakaan penyebar. Model ini dikeluarkan di bawah lesen bukan komersial, membenarkan penggunaan bukan komersial sahaja.
Experience
Alamat: https://huggingface.co/spaces/multimodalart/stable-cascadedijana dengan sangat pantas. Pengguna platform X @GozukaraFurkan menyiarkan bahawa ia hanya memerlukan kira-kira 9GB memori GPU, dan kelajuannya masih boleh dikekalkan dengan baik. . ketepatan menghasilkan perkataan/frasa yang lebih pendek agak tinggi, ayat yang panjang juga boleh dilengkapkan dengan kebarangkalian tertentu (Bahasa Inggeris sahaja), dan integrasi teks dan imej juga sangat baik.
Pengguna @AIWarper mencuba beberapa ujian gaya artis yang berbeza.
prompt: Mimpi ngeri di Elm Street. Rujukan gaya artis adalah seperti berikut: Makoto Shinkai di atas kiri, Tomer Hanuka di bawah kiri, Raphael Kirchner di atas kanan, Takato Yamamoto di bawah kanan.
Namun, apabila menjana wajah watak, anda boleh mendapati bahawa butiran kulit watak itu tidak begitu baik, dan ia terasa seperti "pengisaran kulit peringkat sepuluh".
... 1757511080287355093 Butiran teknikal
Stable Cascade berbeza daripada siri model Stable Diffusion Ia dibina pada tiga berbeza model Pada saluran paip yang terdiri daripada: peringkat A, B dan C. Seni bina ini boleh melakukan pemampatan hierarki imej dan menggunakan ruang terpendam yang sangat mampat untuk mencapai output yang unggul. Bagaimanakah bahagian-bahagian ini sesuai bersama?
Peringkat penjana imej terpendam (peringkat C) menukar input pengguna kepada perwakilan terpendam 24x24 padat, yang kemudiannya dihantar ke peringkat penyahkod terpendam (peringkat A dan B) untuk memampatkan imej, yang serupa dengan kerja VAE dalam Resapan Stabil, Tetapi boleh mencapai pemampatan yang lebih tinggi.
Dengan menyahganding penjanaan keadaan teks (peringkat C) daripada penyahkodan kepada ruang piksel resolusi tinggi (peringkat A dan B), kami boleh melengkapkan latihan tambahan atau penalaan halus pada peringkat C, termasuk ControlNets dan LoRA, serupa dengan latihan Berbanding dengan Model Resapan Stabil dengan saiz yang sama, kos boleh dikurangkan kepada satu per enam belas. Peringkat A dan B secara pilihan boleh diperhalusi untuk kawalan tambahan, tetapi ini akan serupa dengan memperhalusi VAE dalam model Resapan Stabil. Dalam kebanyakan kes, faedah berbuat demikian adalah minimum. Oleh itu, untuk kebanyakan tujuan, Stability AI secara rasmi mengesyorkan latihan hanya Fasa C dan menggunakan keadaan asal daripada Fasa A dan B.
Fasa C dan B akan mengeluarkan dua model berbeza: model parameter 1B dan 3.6B untuk Fasa C dan model parameter 700M dan 1.5B untuk Fasa B. Model dengan parameter 3.6B disyorkan untuk Peringkat C kerana model ini mempunyai output kualiti tertinggi. Walau bagaimanapun, bagi mereka yang ingin mempunyai keperluan perkakasan minimum, versi parameter 1B tersedia. Untuk Fasa B, kedua-dua keluaran mencapai hasil yang baik, tetapi versi parameter 1.5B menunjukkan prestasi yang lebih baik dari segi perincian pembinaan semula. Terima kasih kepada pendekatan modular Stable Cascade, keperluan VRAM yang dijangkakan untuk inferens boleh dikekalkan kepada kira-kira 20GB. Ini boleh dikurangkan lagi dengan menggunakan varian yang lebih kecil, dengan kaveat bahawa ini juga boleh mengurangkan kualiti keluaran akhir.
Perbandingan
Dalam penilaian, Stable Cascade menunjukkan prestasi terbaik dari segi penjajaran segera dan kualiti estetik berbanding hampir semua model yang dibandingkan. Rajah di bawah menunjukkan hasil penilaian manusia menggunakan gabungan gesaan separa dan gesaan estetik:
Lata Stabil (30 langkah inferens) lwn. Taman Permainan v2 (50 langkah inferens), SDXL (50 langkah inferens ) , SDXL Turbo (1 langkah penaakulan) dan Würstchen V2 (30 langkah penaakulan) dibandingkan
Stable Cascade, SDXL, Playground V2 dan SDXL Turbo Stable Cascade's menunjukkan kecekapan dan kecekapannya potensi mampatan yang lebih tinggi. Walaupun model terbesar mempunyai 1.4B lebih parameter daripada Stable Diffusion XL, ia masih mempunyai masa inferens yang lebih pantas.
Ciri Ditambah
Selain penjanaan teks-ke-imej standard, Lata Stable juga boleh menjana variasi imej dan penjanaan imej-ke-imej.
Varian imej mengekstrak benam imej daripada imej tertentu dengan menggunakan CLIP dan kemudian mengembalikannya kepada model. Imej di bawah adalah contoh output. Imej di sebelah kiri menunjukkan imej asal, manakala empat di sebelah kanannya ialah varian yang dijana.Imej ke Imej dengan hanya menambah hingar pada imej yang diberikan dan kemudian menjana imej daripada itu sebagai titik permulaan. Di bawah ialah contoh menambah hingar pada imej di sebelah kiri dan kemudian menjananya dari sana.
Kod untuk latihan, penalaan halus, ControlNet dan LoRA
Dengan keluaran Stable Cascade, Stability AI akan mengeluarkan semua kod untuk latihan, penalaan halus, ControlNet dan LoRA untuk mengurangkan keperluan untuk percubaan selanjutnya dengan seni bina ini. Berikut ialah beberapa ControlNets yang akan dikeluarkan bersama model:
Tampal/Kembangkan: Masukkan imej dan tambah topeng untuk memadankan gesaan teks. Model kemudiannya akan mengisi bahagian bertopeng pada imej berdasarkan pembayang teks yang disediakan.Canny Edge: Menghasilkan imej baharu berdasarkan tepi imej sedia ada yang dimasukkan ke dalam model. Mengikut ujian Stability AI, ia juga boleh membuat skala lakaran.型 Bahagian atas 型 ialah lakaran model input, dan bahagian bawah ialah hasil output
2x Super-Resolution: Meningkatkan resolusi imej kepada 2x panjang sisinya, mis.
Adakah anda suka nilai untuk wang ini?
Atas ialah kandungan terperinci Kelajuan penjanaan adalah dua kali lebih pantas daripada SDXL, dan ia juga boleh berjalan pada 9GB Stable Cascade di sini untuk meningkatkan nisbah harga/prestasi.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!