"Ia bukanlah satu keratan yang mudah." Lapisan lutsinar (PNG)
!Contohnya:
Seorang wanita berambut kusut masai di dalam bilik tidur. Wanita dengan rambut acak-acakan, di dalam bilik tidur.
Anda dapat melihat bahawa AI bukan sahaja menghasilkan imej lengkap yang mematuhi gesaan, malah
.
latar belakang dan watak boleh dipisahkan
Dan jika anda mengezum masuk pada imej PNG watak dan melihat dengan lebih dekat, helaian rambut ditakrifkan dengan jelas.
Lihat contoh lain:
Membakar kayu api, di atas meja, di luar bandar.Membakar kayu api, di atas meja, di luar bandar.
pengarang ControlNet Kaedah baharu yang dicadangkan,Begitu juga, dengan membesarkan PNG "mancis yang terbakar", malah asap hitam di sekeliling api boleh dipisahkan:
LayerDiffusion
, membenarkan model resapan pendam pra-latihan berskala besar untuk menjana imej lutsinar.Perlu ditekankan sekali lagi bahawa LayerDiffusion tidak semudah memotong imej, tumpuannya adalah pada generasi
.Bak kata netizen:
Ini adalah salah satu proses teras dalam penghasilan animasi dan video sekarang. Jika langkah ini boleh dilalui, boleh dikatakan konsistensi SD tidak lagi menjadi masalah. .
PNG, kini mula mengambil laluan penjanaanJadi bagaimanakah LayerDiffusion dilaksanakan?
Inti LayerDiffusion ialah kaedah yang dipanggil
latent transparency(latent transparency). Ringkasnya, ia membolehkan menambah ketelusan pada model tanpa memusnahkan pengedaran terpendam model resapan pendam pra-latihan(seperti Resapan Stabil)
.
Dari segi pelaksanaan khusus, ia boleh difahami sebagai menambah gangguan kecil yang direka dengan teliti (mengimbangi) pada imej terpendam ini dikodkan sebagai saluran tambahan, yang bersama-sama dengan saluran RGB membentuk imej terpendam yang lengkap.
Untuk mencapai pengekodan dan penyahkodan ketelusan, penulis melatih dua model rangkaian saraf bebas: satu ialah pengekod ketelusan terpendam(pengekod ketelusan terpendam), dan satu lagi ialah penyahkod ketelusan terpendam(penyahkod penyahkod ketelusan).
Pengekod menerima saluran RGB dan saluran alfa imej asal sebagai input, menukar maklumat ketelusan menjadi offset dalam ruang terpendam.
Penyahkod menerima imej terpendam yang dilaraskan dan imej RGB yang dibina semula, dan mengekstrak maklumat ketelusan daripada ruang terpendam untuk membina semula imej lutsinar asal.
Untuk memastikan potensi ketelusan tambahan tidak memusnahkan pengedaran asas model pra-latihan, penulis mencadangkan metrik "tidak berbahaya" (tidak berbahaya).
Metrik ini menilai kesan ketelusan pendam dengan membandingkan hasil penyahkodan imej pendam yang dilaraskan oleh penyahkod model asal yang telah dilatih dengan imej asal.
Semasa proses latihan, penulis turut menggunakan fungsi joint loss (joint loss function) , yang menggabungkan reconstruction loss (reconstruction loss) , identity loss (identity loss) dan discriminator loss ).
Fungsinya ialah:
Dengan pendekatan ini, mana-mana model resapan terpendam boleh ditukar menjadi penjana imej lutsinar dengan hanya memperhalusinya agar sesuai dengan ruang terpendam yang dilaraskan.
Konsep ketelusan terpendam juga boleh diperluaskan untuk menjana berbilang lapisan telus, dan digabungkan dengan sistem kawalan bersyarat lain untuk mencapai tugas penjanaan imej yang lebih kompleks, seperti penjanaan keadaan latar depan/latar belakang, penjanaan lapisan bersama, kawalan Struktur lapisan kandungan, dsb. . diringkaskan kepada perkara-perkara berikut.
Generasi asli lwn. pasca pemprosesan
LayerDiffusion ialah kaedah penjanaan imej telus asli yang mempertimbangkan dan mengekod maklumat ketelusan secara langsung semasa proses penjanaan. Ini bermakna model itu mencipta saluran alfa sambil menjana imej, sekali gus menghasilkan imej dengan ketelusan.
Kaedah potongan tradisional biasanya melibatkan penjanaan atau mendapatkan imej dahulu, dan kemudian memisahkan latar depan dan latar belakang melalui teknik penyuntingan imej
(seperti kunci kroma, pengesanan tepi, topeng khusus pengguna, dll.). Pendekatan ini selalunya memerlukan langkah tambahan untuk mengendalikan ketelusan dan boleh menghasilkan peralihan luar biasa pada latar belakang atau tepi yang kompleks.
LayerDiffusion beroperasi dalam ruang terpendam (ruang terpendam), yang merupakan perwakilan perantaraan yang membolehkan model belajar dan menjana ciri imej yang lebih kompleks. Dengan pengekodan ketelusan dalam ruang terpendam, model boleh mengendalikan ketelusan secara semula jadi semasa penjanaan tanpa memerlukan pengiraan kompleks pada tahap piksel.
Teknik guntingan tradisional biasanya dilakukan dalam ruang piksel, yang mungkin melibatkan pengeditan terus imej asal, seperti penggantian warna, pelicinan tepi, dsb. Kaedah ini mungkin mengalami kesukaran mengendalikan kesan lut sinar (seperti api, asap) atau tepi kompleks.
Set Data dan Latihan
LayerDiffusion menggunakan set data berskala besar untuk latihan, yang mengandungi pasangan imej telus, membolehkan model mempelajari pengedaran kompleks yang diperlukan untuk menghasilkan imej lutsinar berkualiti tinggi.
Kaedah tikar tradisional mungkin bergantung pada set data yang lebih kecil atau set latihan khusus, yang mungkin mengehadkan keupayaannya untuk mengendalikan pelbagai senario.
Fleksibiliti dan Kawalan
LayerDiffusion memberikan fleksibiliti dan kawalan yang lebih besar kerana ia membolehkan pengguna membimbing penjanaan imej melalui gesaan teks dan boleh menjana berbilang lapisan, yang Lapisan boleh diadun dan digabungkan untuk mencipta pemandangan yang kompleks.
Kaedah potongan tradisional mungkin lebih terhad dalam kawalan, terutamanya apabila berurusan dengan kandungan imej yang kompleks dan ketelusan. Perbandingan Kualiti mungkin lebih baik. Kaedah potongan tradisional mungkin tidak mencapai kualiti yang sama dalam sesetengah kes, terutamanya apabila menangani ketelusan dan tepi yang mencabar.Secara keseluruhannya, LayerDiffusion menyediakan kaedah yang lebih maju dan fleksibel untuk menjana dan memproses imej lutsinar.
Ia mengodkan ketelusan secara langsung semasa proses penjanaan dan mampu menghasilkan hasil berkualiti tinggi yang sukar dicapai dengan kaedah potongan tradisional.Mengenai pengarang
Seperti yang baru kami sebutkan, salah seorang pengarang kajian ini ialah pencipta ControlNet yang terkenal -Zhang Lumin
. Beliau lulus dari Universiti Suzhou dengan ijazah sarjana muda Beliau menerbitkan kertas kerja yang berkaitan dengan seni lukis AI semasa beliau masih baru, beliau menerbitkan 10 karya peringkat tinggi. Zhang Lumin sedang belajar untuk PhD di Universiti Stanford, tetapi dia boleh dikatakan sangat rendah diri dan belum mendaftar untuk Google Scholar.Setakat ini, LayerDiffusion bukan sumber terbuka dalam GitHub, tetapi walaupun begitu ia tidak dapat menghalang perhatian semua orang dan telah pun mendapat 660 bintang.
Lagipun, Zhang Lumin turut dicemuh netizen sebagai "master pengurusan masa".Atas ialah kandungan terperinci Karya baharu oleh pengarang ControlNet: Lukisan AI boleh dibahagikan kepada beberapa lapisan! Projek itu memperoleh 660 bintang tanpa menjadi sumber terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!