Rumah > Peranti teknologi > AI > teks badan

InstantID yang pernah popular mempunyai cara baharu untuk bermain: penjanaan imej bergaya, yang telah menjadi sumber terbuka

WBOY
Lepaskan: 2024-04-15 15:58:20
ke hadapan
583 orang telah melayarinya
Pasukan asal InstantID melancarkan kaedah baharu untuk penghijrahan gaya yang dipanggil InstantStyle.

Penjanaan imej yang digayakan sering dipanggil pemindahan gaya, dan matlamatnya adalah untuk menghasilkan imej yang konsisten dalam gaya dengan imej rujukan dan konsisten dengan kandungan imej asal. Teknologi ini berdasarkan kaedah penyebaran (seperti LoRA) untuk latihan kelompok data gaya yang sama dan tidak boleh dipindahkan ke gaya baharu. Atau berdasarkan operasi penyongsangan (seperti StyleAlign), dengan memulihkan imej gaya kepada hingar terpendam, K dan V yang diperoleh melalui perambatan ke hadapan digunakan untuk menggantikan imej gaya dalam penjanaan. Kaedah ini sering merendahkan gaya penjanaan disebabkan oleh operasi penyongsangan.

Baru-baru ini, pasukan asal InstantID melancarkan kaedah pemindahan gaya baharu yang dipanggil InstantStyle. Tidak seperti Face ID, ia adalah rangka kerja suntikan gaya imej umum yang menggunakan dua teknik mudah tetapi sangat berkesan untuk mencapai pemisahan gaya dan kandungan yang berkesan daripada imej rujukan. Kaedah ini menyediakan teknik yang mudah tetapi sangat berkesan untuk mencapai pemisahan gaya dan kandungan yang berkesan daripada imej rujukan, sekali gus mencapai gabungan gaya dan kandungan yang berkesan.

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

  • Kertas: InstantStyle: Makan Tengahari Percuma ke arah Pemeliharaan Gaya dalam Penjanaan Teks-ke-Imej

  • Alamat kertas: https://huggingface.co/papers/2404.0273 ://instantstyle.github.io/

  • Pautan kod: https://github.com/InstantStyle/InstantStyle

  • Alamat demo: https://huggingface.co/spaces/InstantX/InstantStyle

Sebagai motivasi untuk pengenalan automatik, (1) Pertama sekali, gaya tidak ditentukan dan tiada piawaian yang jelas untuk mentakrifkannya. Ia merangkumi banyak elemen, seperti warna, suasana, bahan, susun atur, dan lain-lain jika ia dinilai secara manual, Ia juga sukar untuk membuat kesimpulan bersatu; (2) Kaedah sebelumnya berdasarkan penyongsangan akan menghasilkan kemerosotan gaya yang jelas, yang tidak boleh diterima untuk beberapa gaya, seperti tekstur; , isu yang paling kritikal ialah bagaimana mengimbanginya Keamatan suntikan gaya dan kebocoran kandungan imej rujukan.

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

Dalam hal ini, pasukan penulis menjalankan beberapa analisis eksperimen Mereka mendapati bahawa masalah Penyesuai IP jelas dibesar-besarkan oleh banyak kaedah lain Penulis menyelesaikan kebanyakannya dengan hanya melaraskan berat imej secara manual suntikan ciri Isu kebocoran kandungan yang didakwa dalam kertas. Namun begitu, dalam beberapa kes, masih sukar bagi Penyesuai IP untuk mencari ambang yang sesuai untuk mengimbangi. Memandangkan kaedah berasaskan Penyesuai pada umumnya menggunakan CLIP untuk mengekstrak ciri imej, penulis mengesahkan melalui contoh pengambilan imej bahawa dalam ruang ciri CLIP, ciri imej dan teks boleh ditambah dan dikurangkan Jawapannya jelas, mengapa tidak paparkan ciri sebelum menyuntiknya ke dalam rangkaian Bagaimana untuk memisahkan kandungan dan gaya daripada ciri imej dengan menolak maklumat kandungan yang mungkin bocor?

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源Akhirnya, diilhamkan oleh kaedah B-LoRA, penulis menganalisis dengan teliti kesan suntikan Penyesuai IP pada setiap lapisan, dan terkejut apabila mendapati terdapat dua lapisan bebas yang masing-masing bertindak balas terhadap maklumat susun atur gaya dan ruang. Untuk tujuan ini, penulis memperkenalkan kaedah yang dicadangkan.

Pengenalan kaedah

Berdasarkan pemerhatian dan eksperimen di atas, penulis mencadangkan kaedah InstantStyle, seperti yang ditunjukkan dalam rajah Inti kaedah ini mengandungi dua modul:

: menggunakan penolakan ciri. CLIP Ciri terbiar, melaksanakan penolakan ciri secara eksplisit, mengalih keluar maklumat kandungan dalam ciri imej dan mengurangkan kesan kandungan imej rujukan pada imej yang dijana. Berbanding dengan ketidakpastian gaya, maklumat kandungan selalunya mudah untuk diterangkan hanya melalui teks, jadi pengekod teks CLIP boleh digunakan untuk mengekstrak ciri kandungan untuk penyahgandingan.

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源 (2) Suntikan lapisan gaya sahaja: Suntikan ciri hanya diselesaikan dalam lapisan gaya tertentu, secara tersirat mencapai penyahgandingan gaya dan kandungan. Berhampiran blok pertengahan UNet, pengarang menemui dua lapisan khusus yang masing-masing mengawal gaya dan susun atur ruang, dan mendapati bahawa dalam sesetengah gaya, susun atur ruang mungkin juga jenis gaya.

Secara keseluruhannya, idea InstantStyle agak mudah dan mudah difahami Dengan hanya beberapa baris kod, ia mengurangkan masalah kebocoran kandungan yang paling menyusahkan dalam migrasi gaya.

Hasil eksperimen

Pengarang menunjukkan hasil penjanaan dua strategi dalam artikel kedua-dua strategi ini tidak terhad kepada model tertentu dan boleh digunakan secara berasingan dan bebas, dan kedua-duanya mencapai hasil yang cemerlang. Hasil penolakan ciri:

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

Hanya suntikan lapisan gaya:

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

Perbandingan dengan kaedah terkemuka semasa:

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

Penggayaan berdasarkan imej asal: gameplay

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源InstantStyle sudah disediakan Pembangun boleh cari pelaksanaan kod kaya terus melalui GitHub, termasuk Wenshengtu, Tushengtu dan Inpainting. Baru-baru ini, ia juga telah digunakan sebagai alat penggayaan yang disyorkan oleh projek penjanaan video AnyV2V. Untuk pengguna komuniti, InstantStyle juga menyokong ComfyUI secara asli (pengarang nod ini juga merupakan pengarang bersama InstantStyle), dan pengguna boleh mencubanya dengan cepat dengan mengemas kini nod Penyesuai IP.

Sebagai pengarang InstantID, kenapa kami tidak dijenamakan bersama InstantID Berbanding dengan InstantID yang hanya mengawal gaya yang dihasilkan melalui teks, InstantStyle sudah pasti boleh menjadikan gaya lebih pelbagai. Pasukan pengarang secara rasmi akan menyokong fungsi penggayaan wajah selepas bintang GitHub mencapai 1,000.

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

Penulis juga secara rasmi menyokong Demo Huggingface dan boleh dicuba secara online.

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

Atas ialah kandungan terperinci InstantID yang pernah popular mempunyai cara baharu untuk bermain: penjanaan imej bergaya, yang telah menjadi sumber terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:jiqizhixin.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan