Rumah > Peranti teknologi > AI > teks badan

Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global.

WBOY
Lepaskan: 2023-04-08 17:41:01
ke hadapan
1447 orang telah melayarinya

Pemulihan imej merujuk kepada melengkapkan kawasan imej yang hilang, yang merupakan salah satu tugas asas penglihatan komputer. Arah ini mempunyai banyak aplikasi praktikal, seperti penyingkiran objek, penyasaran semula imej, sintesis imej, dsb.

Kaedah pengecatan awal adalah berdasarkan sintesis blok imej atau resapan warna untuk mengisi bahagian imej yang hilang. Untuk mencapai struktur imej yang lebih kompleks, penyelidik beralih kepada pendekatan dipacu data, di mana mereka menggunakan rangkaian generatif yang mendalam untuk meramalkan kandungan dan penampilan visual. Dengan latihan pada set imej yang besar, dan dibantu oleh pembinaan semula dan kehilangan musuh, model lukisan generatif telah ditunjukkan untuk menghasilkan hasil yang lebih menarik secara visual pada pelbagai jenis data input, termasuk imej semula jadi dan wajah manusia.

Walau bagaimanapun, kerja sedia ada hanya boleh menunjukkan hasil yang baik dalam melengkapkan struktur imej yang mudah, dan menghasilkan kandungan imej dengan struktur keseluruhan yang kompleks dan kesetiaan perincian yang tinggi masih menjadi cabaran besar, Terutama apabila imej berlubang adalah besar.

Pada asasnya, lukisan dalam imej menghadapi dua isu utama: satu ialah cara menyebarkan konteks global dengan tepat kepada kawasan yang tidak lengkap, dan satu lagi adalah untuk mensintesis bahagian tempatan sebenar yang konsisten dengan perincian global . Untuk menyelesaikan masalah penyebaran konteks global, rangkaian sedia ada menggunakan struktur penyahkod pengekod, lilitan atrous, perhatian kontekstual atau lilitan Fourier untuk menyepadukan kebergantungan ciri jarak jauh dan mengembangkan medan penerimaan yang berkesan. Tambahan pula, pendekatan dua peringkat dan pengisian lubang berulang bergantung pada ramalan keputusan kasar untuk meningkatkan struktur global. Walau bagaimanapun, model ini tidak mempunyai mekanisme untuk menangkap semantik peringkat tinggi bagi kawasan yang tidak bertopeng dan secara berkesan menyebarkannya ke dalam lubang untuk mensintesis struktur global keseluruhan.

Berdasarkan perkara ini, penyelidik dari University of Rochester dan Adobe Research mencadangkan rangkaian generasi baharu: CM-GAN (GAN modulasi berlatarkan), yang boleh menjadi lebih baik Mensintesis struktur keseluruhan secara geografi dan butiran tempatan. CM-GAN menyertakan pengekod dengan blok konvolusi Fourier untuk mengekstrak perwakilan ciri berskala daripada imej input dengan lubang. Terdapat juga penyahkod dua aliran dalam CM-GAN yang menetapkan blok modulasi spatial global berlatarkan novel pada setiap lapisan skala.

Dalam setiap blok penyahkod, kami mula-mula menggunakan modulasi global untuk melaksanakan sintesis struktur yang kasar dan sedar dari segi semantik, dan kemudian melakukan modulasi spatial untuk melaraskan peta ciri dengan cara penyesuaian spatial. Di samping itu, kajian ini mereka bentuk skim latihan persepsi objek untuk menghalang artifak dalam rongga untuk memenuhi keperluan tugas penyingkiran objek dalam adegan kehidupan sebenar. Kajian itu menjalankan eksperimen yang meluas untuk menunjukkan bahawa CM-GAN dengan ketara mengatasi kaedah sedia ada dalam kedua-dua penilaian kuantitatif dan kualitatif.

Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global.

  • Alamat kertas: https://arxiv.org/pdf/2203.11947.pdf
  • Alamat projek: https://github.com/htzheng/CM-GAN-Inpainting

Mari kita lihat dahulu kesan pembaikan imej Berbanding dengan kaedah lain, CM -GAN boleh membina semula tekstur yang lebih baik:

Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global.

CM-GAN boleh mensintesis struktur global yang lebih baik:

Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global.

CM-GAN mempunyai sempadan objek yang lebih baik:

Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global.

Mari kita lihat kaedah penyelidikan dan hasil eksperimen.

Kaedah

Pemodulasi Lata GAN​

Untuk memodelkan konteks global penyiapan imej dengan lebih baik, kajian ini mencadangkan mekanisme baharu untuk melancarkan modulasi kod global dengan modulasi kod spatial. Mekanisme ini membantu menangani ciri yang separa tidak sah sambil menyuntik konteks global dengan lebih baik ke dalam domain spatial. Seni bina baharu CM-GAN boleh mensintesis struktur keseluruhan dan butiran setempat, seperti yang ditunjukkan dalam Rajah 1 di bawah.

Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global.

Seperti yang ditunjukkan dalam Rajah 2 (kiri) di bawah, CM-GAN adalah berdasarkan satu cawangan pengekod dan dua lata selari Cawangan dekoder untuk menjana output visual. Pengekod mengambil sebahagian daripada imej dan topeng sebagai input dan menjana peta ciri berskala Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global..

Berbeza daripada kebanyakan kaedah penyahkod pengekod, untuk melengkapkan struktur keseluruhan, kajian ini mengekstrak kod gaya global s daripada ciri peringkat tertinggi Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global. lapisan bersambung sepenuhnya, dan kemudian Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global.Penormalan. Selain itu, rangkaian pemetaan berasaskan MLP menjana kod gaya w daripada hingar untuk mensimulasikan kerawak penjanaan imej. Kod w digabungkan dengan s untuk menghasilkan kod global g = [s w], yang digunakan dalam langkah penyahkodan seterusnya.

Modulasi lata spatial global. Untuk menghubungkan konteks global dengan lebih baik semasa peringkat penyahkodan, kajian ini mencadangkan modulasi berlatarkan spatial global (CM). Seperti yang ditunjukkan dalam Rajah 2 (kanan), peringkat penyahkodan adalah berdasarkan dua cabang: blok modulasi global (GB) dan blok modulasi spatial (SB), dan upsample ciri global F_g dan ciri tempatan F_s secara selari.

Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global.

Tidak seperti kaedah sedia ada, CM-GAN memperkenalkan kaedah baharu untuk menyuntik konteks global ke dalam kawasan lubang. Pada peringkat konsep, ia terdiri daripada modulasi global dan ruang antara ciri pada setiap skala, dan secara semula jadi menyepadukan tiga mekanisme pampasan untuk pemodelan konteks global: 1) pensampelan ciri 2) modulasi spatial;

Latihan persepsi objek

Algoritma yang menjana topeng untuk latihan adalah penting. Pada asasnya, topeng sampel hendaklah serupa dengan topeng yang dilukis dalam bekas penggunaan sebenar, dan topeng harus mengelak daripada menutupi keseluruhan objek atau bahagian besar mana-mana objek baharu. Skim topeng yang dipermudahkan boleh membawa kepada artifak.

Untuk menyokong lebih baik kes penggunaan penyingkiran objek sebenar sambil menghalang model daripada mensintesis objek baharu dalam lubang, kajian ini mencadangkan skim latihan menyedari objek yang menghasilkan topeng yang lebih realistik, seperti yang ditunjukkan dalam Rajah 4 di bawah.

Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global.

Secara khusus, kajian ini mula-mula menghantar imej latihan kepada rangkaian pensegmenan panorama PanopticFCN untuk menjana tahap contoh yang sangat tepat. anotasi dibahagikan, kemudian campuran lubang bebas dan lubang objek dijadikan sampel sebagai topeng awal, dan akhirnya nisbah pertindihan antara lubang dan setiap kejadian dalam imej dikira. Jika nisbah pertindihan lebih besar daripada ambang, kaedah mengecualikan contoh latar depan daripada lubang jika tidak, lubang dibiarkan tidak berubah dan objek simulasi dilengkapkan dengan ambang ditetapkan kepada 0.5. Kajian ini secara rawak mengembang dan menterjemah topeng objek untuk mengelakkan overfitting. Selain itu, kajian ini membesarkan lubang pada sempadan pembahagian contoh untuk mengelakkan piksel latar belakang bocor berhampiran lubang ke kawasan yang dilukis.

Objektif latihan dengan penyelarasan Masked-R_1

Model ini dilatih dengan gabungan kehilangan lawan dan kehilangan persepsi berasaskan segmentasi. Eksperimen menunjukkan bahawa kaedah ini juga boleh mencapai keputusan yang baik apabila semata-mata menggunakan kerugian lawan, tetapi menambah kerugian persepsi boleh meningkatkan lagi prestasi.

Selain itu, kajian ini mencadangkan penyelarasan bertopeng-R_1 khusus untuk latihan lawan bagi tugas mengecat yang stabil, di mana topeng m digunakan untuk mengelakkan pengiraan penalti kecerunan di luar topeng.

Eksperimen

Kajian ini menjalankan eksperimen pembaikan imej pada set data Places2 pada resolusi 512 × 512, dan memberikan model Kuantitatif dan kualitatif hasil penilaian.

Penilaian kuantitatif: Jadual 1 di bawah menunjukkan perbandingan antara CM-GAN dan kaedah penyamaran yang lain. Keputusan menunjukkan bahawa CM-GAN dengan ketara mengatasi kaedah lain dari segi FID, LPIPS, U-IDS dan P-IDS. Dengan bantuan kehilangan persepsi, LaMa, CM-GAN mencapai skor LPIPS yang jauh lebih baik daripada CoModGAN dan kaedah lain, terima kasih kepada panduan semantik tambahan yang disediakan oleh model persepsi yang telah terlatih. Berbanding dengan LaMa/CoModGAN, CM-GAN mengurangkan FID daripada 3.864/3.724 kepada 1.628.

Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global.

Seperti yang ditunjukkan dalam Jadual 3 di bawah, dengan dan tanpa penalaan halus, CM-GAN berprestasi lebih baik pada LaMa dan CoModGAN masks Kedua-duanya telah mencapai peningkatan prestasi yang jauh lebih baik daripada LaMa dan CoModGAN, menunjukkan bahawa model tersebut mempunyai keupayaan generalisasi. Perlu diingat bahawa prestasi CM-GAN yang dilatih pada topeng CoModGAN, topeng sedar objek masih lebih baik daripada topeng CoModGAN, mengesahkan bahawa CM-GAN mempunyai keupayaan penjanaan yang lebih baik.

Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global.

Penilaian kualitatif: Rajah 5, Rajah 6, Rajah 8 menunjukkan kaedah CM-GAN dan SOTA dalam topeng sintetik Visual hasil perbandingan dari segi aspek. ProFill mampu menjana struktur global yang tidak koheren, CoModGAN menghasilkan artifak struktur dan tompok warna, dan LaMa terdedah kepada kabur imej besar pada pemandangan semula jadi. Sebaliknya, kaedah CM-GAN menghasilkan struktur semantik yang lebih koheren, tekstur yang lebih jelas, dan boleh digunakan pada senario yang berbeza.

Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global.

Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global.

Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global.

Untuk mengesahkan kepentingan setiap komponen dalam model, kajian ini menjalankan satu set eksperimen ablasi, dan semua model telah dilatih dan dinilai pada set data Places2. Keputusan eksperimen ablasi ditunjukkan dalam Jadual 2 dan Rajah 7 di bawah.

Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global.

Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global.

Kajian ini turut menjalankan kajian pengguna, To menilai dengan lebih baik kualiti penjanaan visual kaedah CM-GAN, keputusan ditunjukkan dalam Jadual 5 di bawah. Di samping itu, lampiran menyediakan lebih banyak perbandingan visual dan analisis eksperimen untuk rujukan pembaca.

Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global.

Atas ialah kandungan terperinci Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan