Dalam beberapa tahun kebelakangan ini, teknologi penjanaan imej telah membuat banyak penemuan penting. Terutama sejak keluaran model besar seperti DALLE2 dan Stable Diffusion, teknologi imej penjanaan teks telah matang secara beransur-ansur, dan penjanaan imej berkualiti tinggi mempunyai senario praktikal yang luas. Walau bagaimanapun, penyuntingan terperinci imej sedia ada masih menjadi masalah yang sukar
Di satu pihak, disebabkan oleh keterbatasan penerangan teks, model imej tekstual berkualiti tinggi sedia ada hanya boleh menggunakan teks untuk mengedit imej secara deskriptif, dan untuk beberapa tertentu. kesan, teks sukar untuk diterangkan; sebaliknya, dalam senario aplikasi sebenar, tugas penyuntingan pemurnian imej selalunya hanya mempunyai sebilangan kecil imej rujukan, Ini menjadikan banyak penyelesaian yang memerlukan sejumlah besar data untuk latihan, dalam Small jumlah data, terutamanya apabila terdapat hanya satu imej rujukan, sukar untuk digunakan.
Baru-baru ini, penyelidik dari NetEase Interactive Entertainment AI Lab mencadangkan penyelesaian pengeditan imej ke imej berdasarkan panduan imej tunggal Memandangkan imej rujukan tunggal, objek atau gaya dalam imej rujukan boleh dipindahkan ke imej sumber tanpa mengubah. struktur keseluruhan imej sumber.Kertas penyelidikan telah diterima oleh ICCV 2023, dan kod yang berkaitan adalah sumber terbuka.
Penyampaian tesis: Sudut kiri atas setiap set gambar ialah imej sumber, sudut kiri bawah ialah imej rujukan, dan sebelah kanan ialah imej hasil terjana
Bingkai utama
Kandungan yang perlu ditulis semula ialah: rangka kerja utama kertas tersebut
Perlu dinyatakan bahawa dalam bidang Generative Adversarial Networks (GAN) dalam beberapa tahun kebelakangan ini, kaedah penyongsangan telah digunakan secara meluas dan digunakan dalam banyak hasil yang luar biasa telah dicapai pada tugas penjanaan imej [1]. Apabila GAN menulis semula kandungan, teks asal perlu ditulis semula ke dalam bahasa Cina. ruang tersembunyi. Skim penyongsangan ini boleh mengeksploitasi sepenuhnya kuasa penjanaan model generatif pra-terlatih. Kajian ini sebenarnya menulis semula kandungan dengan GAN Teks asal perlu ditulis semula ke dalam bahasa Cina, dan ayat asal tidak perlu digunakan untuk tugas penyuntingan imej berdasarkan panduan imej dengan model penyebaran sebagai priori.
Pengenalan kaedah
VCT mereka bentuk proses resapan dua cawangan, yang merangkumi pembinaan semula kandungan Cawangan B* dan cawangan induk B untuk penyuntingan. Ia bermula daripada bunyi xT yang sama yang diperoleh daripada DDIM Inversion, algoritma yang menggunakan model resapan untuk mengira hingar daripada imej, untuk pembinaan semula kandungan dan penyuntingan kandungan masing-masing. Model pra-latihan yang digunakan dalam kertas ini ialah Model Resapan Terpendam (pendekatan LDM Proses resapan berlaku dalam ruang z ruang vektor terpendam Proses dua cabang boleh dinyatakan sebagai:
.
Proses resapan dua cawangan
Cawangan pembinaan semula kandungan B* mempelajari vektor ciri kandungan T , yang digunakan untuk memulihkan maklumat struktur imej asal, dan melalui skema kawalan perhatian lembut, struktur Maklumat diserahkan kepada editor cabang induk B. Skim kawalan perhatian lembut menggunakan kerja prompt2prompt [3] Google Formulanya ialah:
Iaitu, apabila bilangan langkah larian model resapan berada dalam julat tertentu, peta ciri perhatian bagi menyunting cawangan utama akan digantikan dengan cawangan pembinaan semula kandungan Peta ciri untuk mencapai kawalan struktur imej yang dihasilkan. Cawangan utama penyuntingan B menggabungkan vektor ciri kandungan dipelajari daripada imej asal dan vektor ciri konsep dipelajari daripada imej rujukan untuk menghasilkan gambar yang diedit.
Ruang hingar (ruang) gabungan
Pada setiap langkah model resapan, gabungan vektor ciri berlaku dalam ruang hingar bagi ruang bunyi, yang merupakan pemberat vektor ciri adalah input kepada model resapan. Percampuran ciri cawangan pembinaan semula kandungan berlaku pada vektor ciri kandungan dan vektor teks kosong, selaras dengan bentuk panduan penyebaran bebas pengelas [4]:
pencampuran penyuntingan cabang utama Ia merupakan campuran vektor ciri kandungan dan vektor ciri konsep , iaitu
Pada ketika ini, kunci kepada penyelidikan adalah bagaimana untuk mendapatkan vektor ciri maklumat struktur daripada imej sumber tunggal , dan daripada imej sumber tunggal Gambar rujukan untuk mendapatkan vektor ciri maklumat konsep . Artikel mencapai tujuan ini melalui dua skema penyongsangan yang berbeza.
Untuk memulihkan imej sumber, artikel itu merujuk kepada skema pengoptimuman NULL-text [5] dan mempelajari vektor ciri peringkat T untuk dipadankan dan sesuai dengan imej sumber. Tetapi tidak seperti NULL-text, yang mengoptimumkan vektor teks kosong agar sesuai dengan laluan DDIM, artikel ini secara langsung menepati anggaran vektor ciri bersih dengan mengoptimumkan vektor ciri imej sumber Formula pemasangan ialah:
.Berbeza daripada maklumat struktur pembelajaran, maklumat konsep dalam imej rujukan perlu diwakili oleh satu vektor ciri yang sangat umum Peringkat T model resapan berkongsi vektor ciri konsep . Artikel tersebut mengoptimumkan skema penyongsangan sedia ada Penyongsangan Tekstual [6] dan DreamArtist [7]. Ia menggunakan vektor ciri berbilang konsep untuk mewakili kandungan imej rujukan Fungsi kehilangan termasuk istilah anggaran hingar model resapan dan anggaran jangka kerugian pembinaan semula dalam ruang vektor pendam:
Artikel menjalankan eksperimen mengenai penggantian subjek dan tugas penggayaan, yang boleh menukar kandungan menjadi subjek atau gaya imej rujukan sambil mengekalkan maklumat struktur imej sumber dengan lebih baik.
Kandungan yang ditulis semula: Kertas mengenai kesan eksperimen
Berbanding dengan penyelesaian sebelumnya, rangka kerja VCT yang dicadangkan dalam artikel ini mempunyai kelebihan berikut:
)Generalisasi aplikasi : Berbanding dengan tugas penyuntingan imej sebelumnya berdasarkan panduan imej, VCT tidak memerlukan sejumlah besar data untuk latihan, dan mempunyai kualiti penjanaan dan generalisasi yang lebih baik. Ia berdasarkan idea penyongsangan dan berdasarkan model graf Vincentian berkualiti tinggi yang dipralatih pada data dunia terbuka Dalam aplikasi sebenar, hanya satu imej input dan satu imej rujukan diperlukan untuk mencapai kesan penyuntingan imej yang lebih baik.
(2) Ketepatan visual: Berbanding dengan penyelesaian imej penyuntingan teks terkini, VCT menggunakan gambar untuk panduan rujukan. Rujukan gambar membolehkan anda mengedit gambar dengan lebih tepat daripada penerangan teks. Rajah berikut menunjukkan hasil perbandingan antara VCT dan penyelesaian lain:
Perbandingan kesan tugasan penggantian subjekPerbandingan tugas pemindahan gaya
Tiada maklumat tambahan diperlukan : Berbanding dengan beberapa penyelesaian terkini yang memerlukan penambahan maklumat kawalan tambahan (seperti peta topeng atau peta kedalaman) untuk kawalan panduan, VCT secara langsung mempelajari maklumat struktur dan maklumat semantik daripada imej sumber dan imej rujukan generasi, rajah berikut menunjukkan beberapa hasil perbandingan. Antaranya, Paint-by-example menggantikan objek yang sepadan dengan objek dalam imej rujukan dengan menyediakan peta topeng imej sumber Controlnet mengawal hasil yang dijana melalui lukisan garisan, peta kedalaman, dan lain-lain imej dan rujukan imej, maklumat struktur pembelajaran dan maklumat kandungan untuk digabungkan ke dalam imej sasaran tanpa sekatan tambahan.
Kesan Kesan Penyuntingan Imej Berdasarkan Panduan Imej -Metease Interactive Entertainment AI Lab
Atas ialah kandungan terperinci Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!