Kajian terbaru penjanaan imej yang boleh dikawal! Universiti Pos dan Telekomunikasi Beijing telah membuka 20 muka surat daripada 249 dokumen, merangkumi pelbagai 'syarat' dalam bidang Penyebaran Teks-ke-Imej.-AI-php.cn

Dalam proses pembangunan pesat dalam bidang penjanaan visual, model resapan telah mengubah sepenuhnya trend pembangunan bidang ini, dan pengenalan fungsi penjanaan berpandukan teks menandakan perubahan mendalam dalam keupayaan.

Walau bagaimanapun, bergantung pada teks semata-mata untuk mengawal model ini tidak dapat memenuhi sepenuhnya keperluan pelbagai dan kompleks bagi aplikasi dan senario yang berbeza.

Memandangkan kelemahan ini, banyak kajian bertujuan untuk mengawal model teks-ke-imej (T2I) yang telah dilatih untuk menyokong keadaan baharu.

Penyelidik dari Beijing University of Posts and Telecommunications menjalankan kajian mendalam tentang generasi model penyebaran T2I yang boleh dikawal, menggariskan asas teori dan kemajuan praktikal dalam bidang ini. Semakan ini merangkumi hasil penyelidikan terkini dan menyediakan rujukan penting untuk pembangunan dan aplikasi bidang ini.

可控图像生成最新综述！北邮开源20页249篇文献，包揽Text-to-Image Diffusion领域各种「条件」

Kertas: https://arxiv.org/abs/2403.04279 Kod: https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models

bermula dengan ulasan aOur ringkas Bermula dengan memperkenalkan asas model probabilistik resapan ternyah (DDPM) dan model resapan T2I yang digunakan secara meluas.

Kami terus meneroka mekanisme kawalan model resapan dan menentukan keberkesanan memperkenalkan keadaan baharu dalam proses denoising melalui analisis teori.

Selain itu, kami merumuskan penyelidikan dalam bidang ini secara terperinci dan membahagikannya kepada kategori berbeza dari perspektif keadaan, seperti penjanaan keadaan khusus, penjanaan berbilang keadaan dan penjanaan kebolehkawalan am.

可控图像生成最新综述！北邮开源20页249篇文献，包揽Text-to-Image Diffusion领域各种「条件」

Rajah 1 Gambarajah skematik penjanaan boleh dikawal menggunakan model resapan T2I. Berdasarkan keadaan teks, tambahkan syarat "identiti" untuk mengawal hasil output.

Sistem Pengelasan

Tugas penjanaan bersyarat menggunakan model resapan teks mewakili medan pelbagai rupa dan kompleks. Dari perspektif bersyarat, kami membahagikan tugas ini kepada tiga subtugas (lihat Rajah 2).

可控图像生成最新综述！北邮开源20页249篇文献，包揽Text-to-Image Diffusion领域各种「条件」

Rajah 2 Klasifikasi penjanaan terkawal. Dari perspektif keadaan, kami membahagikan kaedah penjanaan boleh dikawal kepada tiga subtugas, termasuk penjanaan dengan keadaan khusus, penjanaan dengan berbilang keadaan dan penjanaan boleh dikawal umum.

Kebanyakan penyelidikan ditumpukan kepada cara menjana imej dalam keadaan tertentu, seperti penjanaan berpandukan imej dan penjanaan lakaran ke imej.

Untuk mendedahkan teori dan ciri kaedah ini, kami selanjutnya mengklasifikasikannya mengikut jenis keadaannya.

1. Hasilkan menggunakan syarat tertentu: merujuk kepada kaedah yang memperkenalkan jenis keadaan tertentu, termasuk syarat tersuai (Peribadikan, cth., DreamBooth, Penyongsangan Teks) dan lebih banyak keadaan langsung, seperti siri ControlNet , Physiological signal-to-Image

2. Penjanaan pelbagai keadaan: Menggunakan berbilang syarat untuk menjana, kami membahagikan tugas ini dari perspektif teknikal.

3. Penjanaan terkawal bersatu: Tugas ini direka untuk dapat menjana menggunakan sebarang syarat (walaupun sebarang nombor).

Cara memperkenalkan keadaan baharu ke dalam model resapan T2I

Sila rujuk kertas asal untuk mendapatkan butiran Mekanisme kaedah ini diperkenalkan secara ringkas di bawah. . .

Dalam kaedah ramalan skor berdasarkan keadaan, syarat baru digunakan sebagai input kepada model ramalan untuk meramalkan markah baharu secara langsung.

Ia boleh dibahagikan kepada tiga kaedah untuk memperkenalkan syarat baharu:

1. Ramalan skor keadaan berasaskan model: Kaedah jenis ini akan memperkenalkan model untuk mengekod keadaan baru dan menggunakan ciri pengekodan sebagai input UNet (seperti bertindak pada lapisan perhatian silang) untuk ramalkan keputusan Skor kebaharuan dalam keadaan;

2. Ramalan skor bersyarat berdasarkan penalaan halus: Kaedah jenis ini tidak menggunakan syarat yang jelas, tetapi memperhalusi parameter rangkaian pembenaman dan denosing teks untuk menjadikannya mempelajari Maklumat keadaan baru, dengan itu menggunakan pemberat yang ditala halus untuk mencapai penjanaan yang boleh dikawal. Contohnya, DreamBooth dan Textual Inversion adalah amalan sedemikian.

3. Ramalan skor bersyarat tanpa latihan: Kaedah jenis ini tidak memerlukan latihan model, dan boleh terus menggunakan syarat pada pautan ramalan model, seperti dalam Reka Letak-ke-Imej ( penjanaan imej susun atur) tugasan , anda boleh terus mengubah suai peta perhatian lapisan perhatian silang untuk menetapkan susun atur objek.

Penilaian skor berpandukan bersyarat

Kaedah anggaran skor penilaian berpandukan bersyarat adalah untuk menambah bimbingan bersyarat dalam proses denoising dengan merambat belakang model kecerunan bersyarat melalui model ramalan keadaan pradiksi ).

可控图像生成最新综述！北邮开源20页249篇文献，包揽Text-to-Image Diffusion领域各种「条件」

Gunakan syarat khusus untuk menjana

可控图像生成最新综述！北邮开源20页249篇文献，包揽Text-to-Image Diffusion领域各种「条件」

1. Pemperibadian: penjanaan yang boleh digunakan ini direka bentuk untuk penjanaan yang boleh digunakan Syarat tidak mudah diterangkan melalui teks dan perlu diekstrak daripada contoh imej. Seperti DreamBooth, Texutal Inversion dan LoRA.

2. Kawalan Ruang: Memandangkan teks sukar untuk mewakili maklumat struktur, iaitu lokasi dan label padat, menggunakan isyarat spatial untuk mengawal kaedah penyebaran teks-ke-imej adalah bidang penyelidikan yang penting, seperti reka letak , postur manusia, analisis badan manusia. Kaedah seperti ControlNet.

3. Penjanaan Bersyarat Teks Lanjutan: Walaupun teks memainkan peranan syarat asas dalam model penyebaran teks ke imej, masih terdapat beberapa cabaran dalam bidang ini.

Pertama sekali, apabila melakukan sintesis berpandukan teks dalam teks kompleks yang melibatkan berbilang topik atau huraian yang kaya, anda sering menghadapi masalah salah jajaran teks. Di samping itu, model ini terutamanya dilatih pada set data bahasa Inggeris, menyebabkan kekurangan ketara keupayaan penjanaan berbilang bahasa. Untuk menangani batasan ini, banyak karya telah mencadangkan pendekatan inovatif yang bertujuan untuk memperluaskan skop bahasa model ini.

4. Penjanaan Dalam Konteks: Dalam tugas penjanaan konteks, berdasarkan sepasang imej contoh khusus tugasan dan panduan teks, fahami dan laksanakan tugasan khusus pada imej pertanyaan baharu.

5. Penjanaan Berpandukan Otak: Tugas Penjanaan Berpandukan Otak memberi tumpuan kepada mengawal penciptaan imej secara langsung daripada aktiviti otak, seperti rakaman elektroensefalografi (EEG) dan pengimejan resonans magnetik berfungsi (fMRI).

6. Generasi Berpandukan Bunyi: Jana imej yang sepadan berdasarkan bunyi.

7. Rendering Teks: Jana teks dalam imej, yang boleh digunakan secara meluas dalam poster, kulit data, emotikon dan senario aplikasi lain.

Generasi Berbilang Syarat

可控图像生成最新综述！北邮开源20页249篇文献，包揽Text-to-Image Diffusion领域各种「条件」

Tugas penjanaan berbilang syarat direka untuk menjana imej berdasarkan berbilang syarat, seperti menjana orang tertentu dalam pose yang ditakrifkan pengguna atau tiga identiti peribadi.

Dalam bahagian ini, kami menyediakan gambaran menyeluruh tentang kaedah ini dari perspektif teknikal dan mengklasifikasikannya ke dalam kategori berikut:

1. Latihan Bersama: Perkenalkan pelbagai syarat untuk latihan bersama semasa fasa latihan.

2. Pembelajaran Berterusan: Pelajari pelbagai syarat mengikut urutan, dan jangan lupa keadaan lama sambil belajar keadaan baharu untuk mencapai penjanaan pelbagai syarat.

3. Gabungan Berat: Gunakan parameter yang diperolehi dengan penalaan halus dalam keadaan berbeza untuk pelakuran berat, supaya model boleh dijana dalam beberapa keadaan pada masa yang sama.

4. Integrasi berasaskan perhatian: menetapkan kedudukan berbilang keadaan (biasanya objek) dalam imej melalui peta perhatian untuk mencapai penjanaan pelbagai keadaan.

Generasi Bersyarat Universal

Selain kaedah yang disesuaikan untuk jenis keadaan tertentu, terdapat juga kaedah umum yang direka untuk menyesuaikan diri dengan keadaan sewenang-wenang dalam penjanaan imej.

Kaedah ini secara amnya dikelaskan kepada dua kumpulan berdasarkan asas teorinya: rangka kerja ramalan skor bersyarat am dan anggaran skor bootstrap bersyarat am.

1. Rangka kerja ramalan skor keadaan universal: Rangka kerja ramalan skor keadaan universal berfungsi dengan mencipta rangka kerja yang mampu mengekod mana-mana keadaan tertentu dan mengeksploitasinya untuk meramalkan bunyi pada setiap langkah semasa sintesis imej.

Kaedah ini menyediakan penyelesaian universal yang boleh disesuaikan secara fleksibel untuk pelbagai keadaan. Dengan menyepadukan terus maklumat bersyarat ke dalam model generatif, pendekatan ini membolehkan proses penjanaan imej dilaraskan secara dinamik mengikut pelbagai keadaan, menjadikannya serba boleh dan boleh digunakan untuk pelbagai senario sintesis imej.

2. Anggaran Skor Berpandu Bersyarat Umum: Kaedah lain menggunakan anggaran skor berpandu bersyarat untuk memasukkan pelbagai syarat ke dalam model penyebaran teks ke imej. Cabaran utama terletak pada mendapatkan panduan khusus keadaan daripada pembolehubah terpendam semasa denoising.

Apl

Memperkenalkan keadaan baru boleh berguna dalam pelbagai tugas, termasuk penyuntingan imej, penyiapan imej, gabungan imej, penjanaan teks/imej 3D.

Sebagai contoh, dalam penyuntingan imej, anda boleh menggunakan kaedah tersuai untuk mengedit kucing dalam gambar menjadi kucing dengan identiti tertentu. Untuk maklumat lain, sila rujuk kertas.

Ringkasan

Semakan ini menyelidiki bidang penjanaan bersyarat model penyebaran teks-ke-imej, mendedahkan keadaan baru yang digabungkan ke dalam proses penjanaan berpandukan teks.

Pertama, pengarang menyediakan pengetahuan asas kepada pembaca, memperkenalkan model probabilistik resapan denoising, model resapan teks-ke-imej yang terkenal dan taksonomi yang tersusun dengan baik. Selepas itu, pengarang mendedahkan mekanisme untuk memperkenalkan keadaan baru ke dalam model penyebaran T2I.

Kemudian, penulis merumuskan kaedah penjanaan bersyarat sebelum ini dan menganalisisnya dari aspek asas teori, kemajuan teknikal dan strategi penyelesaian.

Selain itu, pengarang meneroka aplikasi praktikal penjanaan terkawal, menekankan peranan penting dan potensi besarnya dalam era penjanaan kandungan AI.

Tinjauan ini bertujuan untuk memahami secara menyeluruh status semasa bidang penjanaan T2I yang boleh dikawal, sekali gus menggalakkan evolusi dan pengembangan berterusan bidang penyelidikan dinamik ini.

Atas ialah kandungan terperinci Kajian terbaru penjanaan imej yang boleh dikawal! Universiti Pos dan Telekomunikasi Beijing telah membuka 20 muka surat daripada 249 dokumen, merangkumi pelbagai 'syarat' dalam bidang Penyebaran Teks-ke-Imej.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!