Generative Adversarial Rangkaian ( GAN) telah mencapai kejayaan besar dalam menjana imej beresolusi tinggi, dan penyelidikan tentang kebolehtafsiran mereka telah menarik perhatian meluas dalam beberapa tahun kebelakangan ini.
Dalam bidang ini, cara membuat GAN belajar representasi decoupled masih menjadi cabaran utama. Apa yang dipanggil perwakilan decoupled GAN bermakna setiap bahagian perwakilan hanya mempengaruhi aspek tertentu imej yang dihasilkan. Penyelidikan terdahulu mengenai perwakilan GAN yang dipisahkan memfokuskan pada perspektif yang berbeza.
Sebagai contoh, dalam Rajah 1 di bawah, Kaedah 1 memisahkan struktur dan gaya imej. Kaedah 2 mempelajari ciri-ciri objek tempatan dalam imej. Kaedah 3 mempelajari ciri yang dipisahkan bagi atribut dalam imej, seperti atribut umur dan atribut jantina bagi imej wajah. Walau bagaimanapun, kajian ini gagal memberikan gambaran yang jelas dan simbolik dalam GAN untuk konsep visual yang berbeza (seperti bahagian muka seperti mata, hidung dan mulut).
Rajah 1: Perbandingan visual dengan kaedah pencirian decoupled GAN yang lain
Untuk tujuan ini, penyelidik mencadangkan kaedah am untuk mengubah suai GAN tradisional kepada GAN yang boleh ditafsir, yang memastikan isirong lilitan dalam lapisan tengah penjana boleh mempelajari konsep visual tempatan yang dipisahkan. Khususnya, seperti yang ditunjukkan dalam Rajah 2 di bawah, berbanding dengan GAN tradisional, setiap kernel lilitan dalam lapisan tengah GAN yang boleh ditafsir sentiasa mewakili konsep visual tertentu apabila menghasilkan imej yang berbeza, dan kernel lilitan yang berbeza mewakili konsep yang berbeza.
Rajah 2: Perbandingan visual bagi GAN yang boleh ditafsir dan perwakilan pengekodan GAN tradisional
Pembelajaran GAN yang boleh ditafsir harus memenuhi dua matlamat berikut: Kebolehtafsiran isirong lilitan dan Keaslian imej yang dijana.
Oleh itu, mereka menggunakan set kernel lilitan untuk bersama-sama mewakili konsep visual tertentu, dan menggunakan set kernel lilitan yang berbeza untuk mewakili konsep visual yang berbeza masing-masing.
Untuk memastikan ketulenan imej yang dijana pada masa yang sama, penyelidik mereka bentuk fungsi kehilangan berikut untuk mengubah suai GAN tradisional menjadi GAN yang boleh ditafsir.
, mereka memvisualisasikan peta ciri setiap kernel lilitan untuk menilai prestasi kernel lilitan pada imej yang berbeza. Ketekalan konsep visual yang diwakili. Seperti yang ditunjukkan dalam Rajah 3 di bawah, dalam GAN yang boleh ditafsir, setiap kernel lilitan sentiasa menghasilkan kawasan imej yang sepadan dengan konsep visual yang sama apabila menghasilkan imej yang berbeza, manakala kernel lilitan yang berbeza menjana kawasan imej yang sepadan dengan konsep visual yang berbeza.
Rajah 3: Visualisasi peta ciri dalam GAN boleh tafsir
Dalam eksperimen, perbezaan antara pusat kumpulan setiap kumpulan isirong lilitan dan medan penerimaan antara isirong lilitan turut dibandingkan, seperti ditunjukkan dalam Rajah 4(a) di bawah. Rajah 4(b) menunjukkan perkadaran bilangan biji lilitan sepadan dengan konsep visual yang berbeza dalam GAN yang boleh ditafsir. Rajah 4(c) menunjukkan bahawa apabila bilangan kumpulan kernel lilitan yang dipilih untuk pembahagian adalah berbeza, semakin banyak kumpulan, semakin terperinci konsep visual yang dipelajari oleh GAN yang boleh ditafsir.
Rajah 4: Penilaian kualitatif GAN yang boleh ditafsir
GAN yang boleh ditafsir juga menyokong pengubahsuaian konsep visual khusus pada imej yang dijana. Sebagai contoh, interaksi konsep visual khusus antara imej boleh dicapai dengan menukar peta ciri yang sepadan dalam lapisan boleh tafsir, iaitu pertukaran muka tempatan/global selesai.
Rajah 5 di bawah memberikan hasil pertukaran mulut, rambut dan hidung antara pasangan imej. Lajur terakhir memberikan perbezaan antara imej yang diubah suai dan imej asal. Keputusan ini menunjukkan kaedah pengkaji hanya mengubah suai konsep visual tempatan tanpa mengubah kawasan lain yang tidak berkaitan.
Rajah 5: Bertukar-tukar konsep visual khusus untuk menghasilkan imej
Selain itu, Rajah 6 di bawah juga menunjukkan kesan kaedah mereka apabila menukar seluruh muka .
Rajah 6: Menukar seluruh muka imej yang dijana Untuk analisis kuantitatif , penyelidik menggunakan eksperimen pengesahan muka untuk menilai ketepatan keputusan pertukaran muka. Khususnya, diberikan sepasang imej muka, muka imej asal digantikan dengan muka imej sumber untuk menghasilkan imej yang diubah suai. Kemudian, uji sama ada wajah dalam imej yang diubah suai dan wajah dalam imej sumber mempunyai identiti yang sama. Jadual 1 di bawah menunjukkan ketepatan hasil pengesahan muka kaedah yang berbeza Kaedah mereka adalah Lebih baik daripada kaedah pertukaran muka lain dari segi pemeliharaan identiti.
Jadual 1: Penilaian ketepatan identiti bertukar muka Tambahan pula, lokaliti kaedah dalam mengubah suai konsep visual tertentu juga dinilai dalam eksperimen. Secara khusus, penyelidik mengira ralat min kuasa dua (MSE) antara imej asal dan imej yang diubah suai dalam ruang RGB, dan menggunakan nisbah MSE luar wilayah dan MSE dalam wilayah bagi konsep visual tertentu sebagai percubaan. indeks untuk penilaian lokaliti. Keputusan ditunjukkan dalam Jadual 2 di bawah Kaedah pengubahsuaian penyelidik mempunyai lokaliti yang lebih baik , iaitu Kawasan. daripada gambar di luar konsep visual yang diubah suai berubah kurang.
Jadual 2: Penilaian lokaliti bagi konsep visual yang diubah suai Untuk lebih banyak hasil percubaan, lihat kertas kerja. Kerja ini mencadangkan kaedah umum yang boleh mengubah suai GAN tradisional kepada GAN yang boleh ditafsir tanpa sebarang anotasi manual konsep visual. Dalam GAN yang boleh ditafsir, setiap kernel lilitan di lapisan tengah penjana boleh menjana konsep visual yang sama secara stabil apabila menjana imej yang berbeza. Percubaan menunjukkan bahawa GAN boleh ditafsir juga membolehkan orang ramai mengubah suai konsep visual khusus pada imej yang dijana, memberikan perspektif baharu tentang kaedah pengeditan terkawal bagi imej yang dijana GAN. Ringkasan
Atas ialah kandungan terperinci GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!