Dalam beberapa tahun kebelakangan ini, dengan pembangunan pembelajaran mendalam dan kemunculan set data berskala besar, pembelajaran mendalam telah mencapai kemajuan dalam banyak bidang, tetapi tugas "Pemulihan Wajah" masih kekurangan semakan yang sistematik.
Baru-baru ini, penyelidik dari Universiti Nanjing, Universiti Nasional Australia, Universiti Sun Yat-sen, Kolej Imperial London dan Tencent telah menyemak dan meringkaskan secara menyeluruh kemajuan penyelidikan teknologi pemulihan muka berdasarkan pembelajaran mendalam , kaedah pemulihan muka terperingkat, membincangkan seni bina rangkaian, fungsi kehilangan dan set data penanda aras, dan menjalankan penilaian prestasi sistematik kaedah SOTA sedia ada.
Pautan kertas: https://arxiv.org/abs/2211.02831
Pautan repositori: https://github. com/TaoWangzj/Awesome-Face-Restoration
Artikel ini juga merupakan ulasan pertama dalam bidang pemulihan wajah Sumbangan utamanya ialah:
1. Mengkaji model kemerosotan utama dan penunjuk penilaian yang biasa digunakan dalam tugas pemulihan muka, dan meringkaskan ciri-ciri keterlihatan imej wajah; mengelas dan meringkaskan pendekatan sedia ada. Kaedah terutamanya merangkumi dua kategori: kaedah pemulihan pembelajaran mendalam berdasarkan kaedah pemulihan pembelajaran mendalam tanpa kaedah pendahuluan; Modul rangkaian, fungsi kehilangan dan set data standard;
4 . Prospek pembangunan masa depan tugas pemulihan muka dianalisis.
Struktur keseluruhan artikel Latar belakang penyelidikan Pemulihan Muka (FR) ialah masalah pemulihan imej khusus dalam penglihatan asas, bertujuan untuk memulihkan imej muka berkualiti tinggi daripada imej muka input berkualiti rendah. Secara umumnya, model degradasi boleh digambarkan sebagai: di mana I(lq) ialah imej muka berkualiti rendah dan D tidak berkorelasi dengan hingar Fungsi merosot, n ialah bunyi Gaussian aditif. Apabila fungsi degradasi D berbeza, ia sepadan dengan model degradasi yang berbeza. Oleh itu, tugas FR boleh dianggap sebagai proses songsang untuk menyelesaikan model degradasi di atas, yang boleh dinyatakan sebagai: di mana mengikut Bergantung pada fungsi degradasi, tugas pemulihan muka boleh dibahagikan terutamanya kepada lima kategori berikut, yang sepadan dengan model degradasi yang berbeza: 1. : Alih keluar hingar daripada imej wajah dan pulihkan wajah berkualiti tinggi; ): Alih keluar kabur daripada imej wajah dan pulihkan wajah berkualiti tinggi; : Pulihkan wajah beresolusi tinggi dan berkualiti tinggi daripada muka beresolusi rendah berkualiti rendah; ): alih keluar artifak yang muncul semasa proses pemampatan imej muka dan pulihkan muka berkualiti tinggi; 5 Pemulihan (BFR): Pulihkan wajah berkualiti rendah yang tidak diketahui ke dalam wajah berkualiti tinggi;adalah berbeza daripada tugas pemulihan imej semula jadi umum. Imej wajah mempunyai maklumat struktur yang kukuh, jadi tugas pemulihan muka boleh menggunakan maklumat terdahulu imej muka untuk membantu proses pemulihan muka utama boleh dibahagikan kepada yang berikut tiga bahagian:
Maklumat atribut orang: seperti jantina, umur, sama ada untuk memakai cermin mata, seperti yang ditunjukkan dalam gambar di bawah; 🎜>Maklumat Identiti Orang;
Maklumat terdahulu lain: Seperti yang ditunjukkan dalam rajah di bawah, pendahuluan wakil termasuk tanda tempat muka, peta haba muka, peta analisis muka dan muka muka 3D ;
Cabaran utama yang dihadapi menghadapi pemulihan
1. Hadapi pemulihan itu sendiri adalah masalah yang tidak baik.
Oleh kerana jenis kemerosotan dan parameter kemerosotan imej muka berkualiti rendah tidak diketahui lebih awal, menganggarkan imej muka berkualiti tinggi daripada imej terdegradasi merupakan masalah yang tidak baik. Sebaliknya, dalam senario sebenar, kemerosotan imej wajah adalah kompleks dan pelbagai. Oleh itu, bagaimana untuk mereka bentuk model pemulihan muka yang berkesan dan teguh untuk menyelesaikan masalah buruk ini adalah mencabar.
2. Sukar untuk meneroka wajah yang tidak dikenali.
Adalah sukar bagi algoritma pemulihan muka sedia ada untuk menggunakan sepenuhnya pengetahuan sedia ada muka, kerana muka muka (seperti komponen muka dan tanda tanda muka) biasanya diperoleh daripada muka berkualiti rendah Anggaran muka berkualiti rendah dalam imej mungkin menyebabkan ketidaktepatan dalam anggaran terdahulu, yang secara langsung menjejaskan prestasi algoritma pemulihan muka.Sebaliknya, imej wajah yang diambil dalam adegan sebenar selalunya mengandungi jenis degradasi yang kompleks dan pelbagai, dan amat sukar untuk mencari wajah yang sesuai sebelum membantu proses pemulihan muka. Oleh itu, cara melombong muka yang munasabah adalah mencabar.
3. Kekurangan set data penanda aras awam yang besar.
Dengan pembangunan teknologi pembelajaran mendalam, kaedah berasaskan pembelajaran mendalam telah menunjukkan prestasi yang mengagumkan dalam pemulihan muka. Kebanyakan kaedah pemulihan muka berasaskan pembelajaran mendalam sangat bergantung pada set data berskala besar untuk melatih rangkaian. Walau bagaimanapun, kebanyakan kaedah pemulihan muka semasa biasanya dilatih atau diuji pada set data bukan awam. Oleh itu, pada masa ini sukar untuk membuat perbandingan langsung dan saksama kaedah pemulihan muka sedia ada.Tambahan pula, kekurangan tanda aras berkualiti tinggi dan berskala besar mengehadkan potensi model. Walau bagaimanapun, masih sukar untuk mendapatkan data muka berskala besar, jadi adalah mencabar untuk membina set data penanda aras awam yang munasabah untuk tugas pemulihan muka.
4. Algoritma pemulihan muka mempunyai keupayaan generalisasi terhad dalam senario sebenar.
Walaupun kaedah berasaskan pembelajaran mendalam telah mencapai prestasi yang baik dalam pemulihan muka, kebanyakan kaedah bergantung pada strategi yang diselia untuk latihan.Maksudnya, kaedah ini memerlukan set data berpasangan (pasangan imej berkualiti rendah dan berkualiti tinggi) Jika syarat ini tidak dipenuhi, prestasinya akan sangat berkurangan.
Sebaliknya, sukar untuk mengumpul set data berskala besar dengan sampel berpasangan dalam senario kehidupan sebenar. Oleh itu, algoritma yang dilatih pada set data sintetik mempunyai keupayaan generalisasi yang lemah dalam senario sebenar, sekali gus mengehadkan kebolehgunaan model dalam senario sebenar. Oleh itu, cara untuk meningkatkan keupayaan generalisasi algoritma muka dalam senario sebenar adalah mencabar. Ringkasan dan Klasifikasi Kaedah Pemulihan MukaSetakat ini, penyelidik telah mencadangkan banyak algoritma pemulihan muka untuk cuba menyelesaikan cabaran di atas. Rajah di bawah menunjukkan pencapaian ringkas kaedah pemulihan muka berasaskan pembelajaran mendalam. Seperti yang ditunjukkan dalam rajah, bilangan kaedah pemulihan muka berdasarkan pembelajaran mendalam telah meningkat dari tahun ke tahun sejak 2015. Kaedah pemulihan muka ini terbahagi kepada dua kategori: kaedah pemulihan pembelajaran mendalam berasaskan terdahulu dan pembelajaran mendalam bukan berasaskan awal Pemulihan kaedah. Bagi kaedah pemulihan pembelajaran mendalam berdasarkan prior, kami membahagikannya kepada tiga kategori: kaedah pemulihan pembelajaran mendalam berdasarkan prior geometri, kaedah pemulihan mendalam berdasarkan rujukan priors dan kaedah pemulihan Kedalaman berdasarkan prior generatif. Berikut ialah pengenalan ringkas kepada algoritma pemulihan muka yang mewakili. Kaedah Pemulihan Dalam Berasaskan Geometrik Sebelumnya Kaedah ini terutamanya menggunakan ciri unik muka dalam imej Bentuk geometri dan maklumat taburan ruang untuk membantu model memulihkan wajah berkualiti tinggi secara beransur-ansur. Prior geometri biasa termasuk tanda tempat muka, peta haba muka, peta penghuraian muka dan komponen muka. Kerja-kerja perwakilan termasuk: SuperFAN: Ia merupakan kaedah hujung ke hujung pertama untuk mencapai resolusi super muka dan menghadapi tugas kedudukan mercu tanda secara serentak. Idea teras kaedah ini adalah menggunakan strategi latihan tugasan bersama untuk membimbing rangkaian untuk mempelajari lebih banyak maklumat geometri muka untuk membantu model dalam mencapai resolusi super muka yang cekap dan kedudukan mercu tanda muka. MTUN: Ia ialah kaedah pemulihan muka yang mengandungi dua rangkaian cawangan. Rangkaian cawangan pertama digunakan untuk mencapai resolusi super imej muka, dan cawangan kedua digunakan untuk Peta Haba menganggar komposisi muka.Kaedah ini menunjukkan bahawa menggunakan maklumat elemen muka dalam imej muka berkualiti rendah boleh meningkatkan lagi prestasi pemulihan muka algoritma.
PSFR-GAN: Ia adalah kaedah pemulihan muka buta berdasarkan rangkaian progresif berbilang skala. Idea teras kaedah ini adalah untuk memulihkan butiran wajah secara beransur-ansur melalui pemindahan gaya sedar semantik dengan menggunakan imej muka berkualiti rendah berbilang skala dan peta penghuraian manusia sebagai input.
Rujukan Kaedah Pemulihan Dalam Berdasarkan Sebelumnya
Kaedah pemulihan muka sebelum ini hanya bergantung pada imej terdegradasi untuk anggaran Wajah sebelum ini, bagaimanapun, kemerosotan imej muka proses biasanya sangat patologi, dan kaedah ini tidak boleh mendapatkan prior muka yang tepat hanya melalui imej terdegradasi Oleh itu, terdapat satu lagi kategori kaedah menggunakan struktur muka atau kamus komponen muka yang diperoleh daripada imej muka berkualiti tinggi tambahan sebagai rujukan muka membimbing model untuk melakukan kerja-kerja pemulihan muka yang cekap termasuk:
GFRNet: Model rangkaian ini terdiri daripada rangkaian herotan (WarpNet) dan rangkaian pembinaan semula (RecNet adalah untuk menyediakan maklumat panduan herotan, dengan tujuan membetulkan postur dan ekspresi muka dengan menghasilkan medan aliran untuk memesongkan imej rujukan RecNet mengambil imej berkualiti rendah dan maklumat panduan terherot sebagai input secara serentak untuk menghasilkan imej muka berkualiti tinggi dicadangkan berdasarkan GFRNet Ia dilatih dengan cara penjanaan lawan untuk menjana imej muka yang berkualiti tinggi Berbanding dengan GFRNet, GWAInet tidak bergantung pada penanda muka dalam peringkat latihan, dengan itu meningkatkan keteguhan model itu. mulut) daripada imej berkualiti tinggi kemudian, daripada Pilih ciri komponen yang paling serupa daripada kamus komponen yang dijana, pindahkan butiran ke imej muka berkualiti rendah, dan bimbing model untuk melakukan pemulihan muka berdasarkan Kaedah sebelumnya (. Kaedah Pemulihan Dalam Berasaskan Terdahulu Generatif)
Dengan perkembangan pesat rangkaian musuh generatif (GAN), penyelidikan telah mendapati bahawa model GAN muka terlatih, seperti StyleGAN dan StytleGAN2, boleh menyediakan Prior muka yang lebih kaya (seperti geometri dan tekstur muka)
Oleh itu, penyelidik mula menggunakan model tambahan terdahulu yang dijana GAN untuk kerja-kerja pemulihan muka termasuk:
PULSE: Teras kerja ini adalah untuk mengoptimumkan kod pendam StyleGAN pra-latihan secara berulang sehingga jarak antara output dan input berada di bawah ambang, dengan itu mencapai resolusi super muka yang cekap >
GFP-GAN: Kerja ini menggunakan prior yang kaya dan pelbagai dalam model GAN pra-latihan sebagai penjanaan sebelum membimbing model untuk pemulihan muka buta Kaedah ini terutamanya termasuk modul penyingkiran degradasi modul terdahulu berdasarkan model GAN yang telah terlatih Kedua-dua modul ini melaksanakan pemindahan maklumat yang cekap melalui sambungan kod terpendam dan beberapa lapisan penukaran ciri spatial pembahagian saluran.
GPEN: Idea teras kaedah ini adalah untuk menyepadukan dengan berkesan kelebihan rangka kerja GAN dan DNN yang berbeza untuk mencapai pemulihan muka yang cekap. GPEN mula-mula mempelajari model GAN untuk menghasilkan imej muka berkualiti tinggi, kemudian membenamkan model GAN yang telah dilatih ini ke dalam rangkaian konvolusi yang mendalam sebagai penyahkod priori dan akhirnya memperhalusi rangkaian konvolusi yang mendalam ini untuk mencapai pengecaman muka.
Kaedah Pemulihan Dalam Berasaskan Bukan Sebelum: (Kaedah Pemulihan Dalam Berasaskan Bukan Sebelum)
Walaupun kebanyakan orang berdasarkan pembelajaran mendalam Pemulihan muka kaedah boleh memulihkan wajah yang memuaskan dengan bantuan face priors, tetapi bergantung pada face priors meningkatkan kos penjanaan imej muka pada tahap tertentu.
Untuk menyelesaikan masalah ini, kelas kaedah lain bertujuan untuk mereka bentuk model rangkaian hujung ke hujung untuk mempelajari secara langsung fungsi pemetaan antara imej muka berkualiti rendah dan berkualiti tinggi tanpa Sebarang muka muka tambahan perlu diperkenalkan. Kerja-kerja perwakilan termasuk:
BCCN: model rangkaian neural konvolusi dua saluran untuk resolusi super muka. Ia terdiri daripada pengekstrak ciri dan penjana imej, di mana pengekstrak ciri mengekstrak perwakilan muka yang mantap daripada imej muka resolusi rendah dan penjana imej menyesuaikan diri dengan perwakilan muka yang diekstrak dengan muka input Imej digabungkan untuk menghasilkan imej resolusi tinggi. .
HiFaceGAN: Kaedah ini mengubah masalah pemulihan muka kepada masalah penjanaan berpandukan semantik, dan mereka bentuk model HifaceGAN untuk mencapai pemulihan muka. Model rangkaian ini ialah rangka kerja berbilang peringkat yang mengandungi berbilang modul perencatan koperasi dan modul tambahan Reka bentuk struktur ini mengurangkan pergantungan model pada prior yang merosot atau struktur latihan.
RestoreFormer: Ini ialah kaedah pemulihan muka hujung ke hujung berdasarkan Transformer. Ia terutamanya meneroka mekanisme perhatian ruang penuh untuk memodelkan maklumat kontekstual.
Terdapat dua idea teras utama kaedah ini Yang pertama adalah untuk mencadangkan lapisan perhatian silang berbilang kepala untuk mempelajari interaksi ruang penuh antara pertanyaan yang rosak dan berkualiti tinggi. pasangan kunci-nilai. Perkara kedua ialah pasangan nilai utama dalam mekanisme perhatian diambil daripada kamus berkualiti tinggi, yang mengandungi ciri wajah berkualiti tinggi.
Angka berikut secara menyeluruh meringkaskan ciri-ciri kaedah pemulihan muka berdasarkan pembelajaran mendalam dalam beberapa tahun kebelakangan ini.
di mana Plain mewakili kaedah pemulihan kedalaman bukan berasaskan sebelumnya, komponen Muka dan Geometric prior Mewakili dua jenis kaedah pemulihan kedalaman berdasarkan keutamaan geometrik mewakili kaedah pemulihan kedalaman berdasarkan rujukan kedah mewakili kaedah pemulihan kedalaman berdasarkan bukan sebelumnya, dan ViT mewakili model menggunakan Neural kedalaman rangkaian, rangkaian adversarial generatif dan struktur rangkaian Visual Transformer.
Bahagian ini mengkaji secara menyeluruh proses pembangunan teknologi kaedah pemulihan muka berdasarkan pembelajaran mendalam, terutamanya dari aspek berikut Ringkaskan dan menganalisis beberapa aspek: seni bina asas model rangkaian, modul asas yang digunakan, fungsi kehilangan yang digunakan oleh model dan set data penanda aras berkaitan muka.
Seni Bina Rangkaian
Seni bina rangkaian kaedah pemulihan muka berasaskan pembelajaran mendalam sedia ada terbahagi terutamanya kepada tiga kategori : Kaedah berdasarkan panduan terdahulu, kaedah berdasarkan struktur rangkaian GAN dan kaedah berdasarkan struktur rangkaian ViT. Oleh itu, kita membincangkan perkembangan ini dalam bahagian ini.
Kaedah berdasarkan bimbingan terdahulu
Kaedah jenis ini boleh dibahagikan terutamanya kepada empat jenis, iaitu berdasarkan panduan terdahulu Kaedah pemulihan muka terdahulu (Kaedah pemulihan muka pra-sebelum), kaedah pemulihan muka awal bersama (Kaedah pemulihan muka terdahulu bersama), kaedah pemulihan muka berdasarkan kaedah awal pertengahan (Kaedah pemulihan muka pra-sebelum)), rujukan-sebelumnya kaedah pemulihan muka berdasarkan rujukan sebelumnya.
Rajah struktur ringkas bagi empat kaedah di atas adalah seperti berikut:
Wajah berdasarkan Pemulihan pra-sebelumnya kaedah biasanya menggunakan rangkaian anggaran terdahulu terlebih dahulu (seperti rangkaian anggaran muka muka atau model GAN muka terlatih) untuk menganggar muka sebelumnya daripada imej input berkualiti rendah, dan kemudian menggunakan rangkaian untuk menggunakan muka sebelumnya dan muka Imej menjana wajah berkualiti tinggi.
Kaedah biasa ditunjukkan dalam rajah di bawah, penyelidik mereka bentuk rangkaian penghuraian muka untuk mengekstrak label semantik muka terlebih dahulu daripada imej muka kabur input, dan kemudian menggabungkan imej kabur dan imej kabur. orang Label semantik muka dimasukkan secara serentak ke dalam rangkaian penyahkaburan untuk menjana imej muka yang jelas.
Anggaran terdahulu bersama dan kaedah pemulihan muka terutamanya mengeksploitasi muka sebelumnya Hubungan pelengkap antara anggaran tugasan dan menghadapi tugasan pemulihan. Kaedah jenis ini biasanya melatih rangkaian pemulihan muka dan rangkaian anggaran terdahulu secara bersama, jadi kaedah jenis ini mengambil kira kelebihan kedua-dua subtugas, yang secara langsung boleh meningkatkan prestasi tugas pemulihan muka.
Kaedah biasa ditunjukkan dalam rajah di bawah. Penyelidik mencadangkan model rangkaian yang menggabungkan penjajaran muka dan resolusi super muka Kaedah ini menganggarkan kedudukan mercu tanda dan muka . Imej muka resolusi super.
Idea teras kaedah pemulihan muka berdasarkan pendahuluan pertengahan ialah dahulu gunakan pemulihan Rangkaian menjana imej muka kasar dan kemudian menganggarkan maklumat terdahulu muka daripada imej kasar, supaya maklumat terdahulu yang lebih tepat boleh diperolehi daripada terus daripada input imej berkualiti rendah.
Kaedah biasa ditunjukkan dalam rajah di bawah. Para penyelidik mencadangkan model rangkaian FSRNet, yang melakukan anggaran muka muka di tengah-tengah rangkaian.
Secara khusus, FSRNet menggunakan rangkaian SR kasar untuk memulihkan imej secara kasar, kemudian menggunakan pengekod SR yang halus dan rangkaian anggaran terdahulu untuk menganggarkan imej hasil kasar secara priori; akhirnya, ciri penghalusan imej dan maklumat terdahulu dimasukkan secara serentak ke penyahkod SR yang halus untuk memulihkan hasil akhir.
Kaedah berdasarkan struktur rangkaian GAN
Kaedah jenis ini terbahagi terutamanya kepada dua jenis: kaedah berdasarkan seni bina GAN biasa (kaedah GAN Biasa) dan kaedah berdasarkan struktur benam GAN yang telah terlatih (Kaedah GAN terlatih sebelumnya) .
Rajah struktur ringkas kedua-dua kaedah ini adalah seperti berikut:
Kaedah berdasarkan seni bina GAN biasa biasanya memperkenalkan kerugian lawan dalam model rangkaian, dan kemudian menggunakan strategi pembelajaran lawan untuk bersama-sama mengoptimumkan diskriminator dan penjana (rangkaian pemulihan muka) untuk menjana imej wajah yang lebih realistik.
Kaedah biasa ditunjukkan dalam rajah di bawah. Para penyelidik mencadangkan model rangkaian HLGAN, yang terdiri daripada dua rangkaian musuh generatif.
Yang pertama ialah rangkaian GAN Tinggi ke Rendah, yang menggunakan imej tidak berpasangan untuk latihan untuk mempelajari proses degradasi imej resolusi tinggi. Output rangkaian pertama (iaitu, imej muka resolusi rendah) digunakan untuk melatih rangkaian GAN Rendah ke Tinggi kedua untuk mencapai resolusi super muka.
Idea teras kaedah berdasarkan struktur tertanam GAN pra-latihan adalah menggunakan pra- model GAN muka terlatih (seperti StyleGAN), dan kemudian menyepadukan potensi sebelum ke dalam proses pemulihan muka, dan mencapai pemulihan muka yang cekap dengan bantuan strategi pembelajaran terdahulu terpendam dan lawan.
Kaedah biasa ditunjukkan dalam rajah di bawah. Para penyelidik mereka bentuk model GFP-GAN ini terutamanya termasuk modul penyingkiran degradasi dan modul priori berdasarkan model GAN yang telah dilatih Sambungan kod terpendam dan beberapa lapisan transformasi ciri spatial pembahagian saluran melaksanakan pemindahan maklumat yang cekap.
Kaedah berdasarkan struktur rangkaian ViT
Baru-baru ini, seni bina rangkaian Visual Transformer (ViT) telah menunjukkan prestasi cemerlang dalam bidang seperti pemprosesan bahasa semula jadi dan penglihatan komputer, yang juga telah memberi inspirasi kepada aplikasi seni bina Transformer dalam tugas pemulihan muka.
Kaedah biasa ditunjukkan dalam rajah di bawah Berdasarkan Swin Transformer, penyelidik mencadangkan rangkaian Swin Transformer U-Net (STUNet) hujung ke hujung untuk pemulihan muka.
Dalam STUNet, modul pengubah menggunakan mekanisme perhatian kendiri dan strategi tetingkap anjakan untuk membantu model memfokus pada ciri yang lebih penting yang bermanfaat untuk menghadapi pemulihan Kaedah ini telah mencapai tahap yang baik prestasi .
Modul yang biasa digunakan dalam model rangkaian
Dalam bidang pemulihan muka, penyelidik telah mereka bentuk pelbagai jenis modul asas untuk membina rangkaian pemulihan muka yang berkuasa. Modul asas yang biasa digunakan ditunjukkan dalam rajah di bawah Modul asas ini terutamanya termasuk modul sisa (Blok Sisa), Modul Padat (Blok Padat), modul perhatian (Blok perhatian saluran, blok perhatian saluran sisa, blok perhatian ruang) dan modul Transformer. (Blok pengubah).
Fungsi kehilangan
Fungsi kehilangan biasa dalam tugas pemulihan muka Terdapat terutamanya kategori berikut: Kehilangan mengikut piksel (terutamanya termasuk kehilangan L1 dan L2), Kehilangan persepsi, Kehilangan adversarial, kerugian khusus muka. Pelbagai kaedah pemulihan muka dan fungsi kehilangan yang mereka gunakan diringkaskan dalam jadual berikut:
Dataset
Set data awam dan maklumat statistik berkaitan yang berkaitan dengan tugas pemulihan muka diringkaskan seperti berikut:
Perbandingan prestasi
Artikel ini meringkaskan dan menguji beberapa kaedah pemulihan wajah perwakilan dalam PSNR/SSIM/MS-SSIM/ LPIPS/ Prestasi NIQE
Perbandingan hasil kuantitatif
Perbandingan keputusan kualitatif
Perbandingan kerumitan kaedah
Walaupun kaedah pemulihan muka berdasarkan pembelajaran mendalam telah mencapai sedikit kemajuan, masih terdapat banyak cabaran dan masalah yang belum diselesaikan.
Reka bentuk struktur rangkaian
Untuk kaedah pemulihan muka berdasarkan pembelajaran mendalam, struktur rangkaian boleh menjejaskan prestasi kaedah tersebut mempunyai kesan yang ketara.
Contohnya, kaedah berasaskan Transformer terkini selalunya mempunyai prestasi yang lebih baik disebabkan oleh keupayaan hebat seni bina Transformer. Kaedah berasaskan GAN boleh menghasilkan imej wajah yang lebih menarik secara visual.
Oleh itu, apabila mereka bentuk rangkaian, adalah berbaloi untuk belajar dan menyelidik daripada struktur yang berbeza seperti CNN, GAN dan ViT.
Sebaliknya, model berasaskan Transformer terkini biasanya mengandungi parameter yang lebih besar dan memerlukan kos pengiraan yang lebih tinggi, yang menjadikannya sukar untuk digunakan dalam peranti tepi.
Oleh itu, cara mereka bentuk rangkaian ringan dengan prestasi berkuasa adalah satu lagi hala tuju penyelidikan yang berpotensi untuk kerja masa hadapan.
Integrasi muka muka dan rangkaian
Sebagai tugas pemulihan imej dalam bidang tertentu, ciri muka boleh digunakan untuk tugas pemulihan muka. Apabila mereka bentuk model, banyak kaedah bertujuan untuk menggunakan muka muka untuk memulihkan butiran muka yang realistik.
Walaupun beberapa kaedah cuba memperkenalkan prior geometri, komponen muka, prior generatif atau prior 3D ke dalam proses pemulihan muka, cara untuk mengintegrasikan maklumat terdahulu ke dalam rangkaian dengan lebih munasabah kekal sebagai hala tuju yang menjanjikan untuk tugasan ini.
Di samping itu, melombong lagi prior berkaitan muka baharu, seperti prior daripada GAN terlatih atau statistik data dalam rangkaian, juga merupakan satu lagi hala tuju tugas ini.
Fungsi kehilangan dan indeks penilaian
Untuk tugas pemulihan muka, fungsi kehilangan yang digunakan secara meluas termasuk kehilangan L1, L2 kerugian, kehilangan persepsi, kehilangan lawan dan kerugian khusus muka, seperti yang ditunjukkan dalam Jadual 3.
Kaedah sedia ada biasanya tidak menggunakan satu fungsi kehilangan tunggal, tetapi menggabungkan berbilang fungsi kehilangan dengan pemberat yang sepadan untuk melatih model. Walau bagaimanapun, tidak jelas cara mereka bentuk fungsi kerugian yang lebih munasabah untuk membimbing latihan model.
Oleh itu, pada masa hadapan, lebih banyak kerja dijangka mencari fungsi kehilangan yang lebih tepat (cth., universal atau menghadapi fungsi kehilangan didorong tugas) untuk memudahkan pemulihan muka Pembangunan tugas ini. Di samping itu, fungsi kehilangan secara langsung boleh menjejaskan keputusan penilaian model. Seperti yang ditunjukkan dalam Jadual 5, 6 dan 7, kehilangan L1 dan kehilangan L2 cenderung untuk memperoleh keputusan yang lebih baik dari segi PSNR, SSIM dan MS-SSIM.
Kehilangan persepsi dan kehilangan musuh cenderung untuk menghasilkan hasil yang lebih menggembirakan (iaitu menghasilkan nilai LPIPS, FID dan NIQE yang tinggi). Oleh itu, cara membangunkan penunjuk yang boleh mengambil kira aspek manusia dan mesin untuk menilai prestasi model dengan lebih munasabah juga merupakan hala tuju yang sangat penting pada masa hadapan.
Overhed pengiraan
Kaedah pemulihan muka sedia ada biasanya melakukan ini dengan meningkatkan kedalaman atau lebar rangkaian dengan ketara. untuk meningkatkan prestasi pemulihan, sambil mengabaikan kos pengiraan model.
Kos pengiraan yang tinggi menghalang kaedah ini daripada digunakan dalam persekitaran terhad sumber, seperti peranti mudah alih atau terbenam.
Contohnya, seperti yang ditunjukkan dalam Jadual 8, kaedah terkini RestoreFormer mempunyai volum parameter 72.37M dan volum pengiraan MAC 340.80G, yang sangat sukar untuk menggunakannya dalam aplikasi dunia sebenar. Oleh itu, membangunkan model dengan kos pengiraan yang kurang adalah hala tuju masa depan yang penting.
Set Data Penanda Aras
Dengan tugas penglihatan asas lain seperti penyahkaburan imej, penyahnujaan imej dan penyahjerebuan imej Berbeza, terdapat beberapa tanda aras penilaian standard untuk pemulihan muka.
Contohnya, kebanyakan kaedah pemulihan muka biasanya diuji pada set data peribadi (set latihan disintesis daripada FFHQ).
Penyelidik mungkin tergoda untuk menggunakan data yang berat sebelah terhadap kaedah cadangan mereka. Sebaliknya, untuk membuat perbandingan yang adil, kerja susulan memerlukan banyak masa untuk mensintesis set data peribadi dan melatih semula kaedah perbandingan lain. Tambahan pula, set data yang digunakan secara meluas baru-baru ini selalunya bersaiz kecil dan tidak sesuai untuk kaedah pembelajaran mendalam.
Oleh itu, membangunkan set data penanda aras standard adalah satu arah untuk tugas pemulihan muka. Pada masa hadapan, kami mengharapkan penyelidik dalam komuniti membina lebih banyak set data penanda aras standard dan berkualiti tinggi.
Pemulihan muka video
Dengan populariti peranti mudah alih seperti telefon bimbit dan kamera, tugas video pemulihan muka menjadi semakin penting. Walau bagaimanapun, kerja sedia ada tertumpu terutamanya pada tugas pemulihan muka imej, manakala kerja pemulihan muka berkaitan video adalah kurang biasa.
Sebaliknya, tugas penglihatan peringkat rendah yang lain seperti penyahkaburan video, peleraian super video dan penyahnodahan video telah berkembang pesat sejak beberapa tahun kebelakangan ini.
Oleh itu, pemulihan muka video merupakan hala tuju yang berpotensi untuk komuniti. Tugasan pemulihan muka video boleh dipertimbangkan dari dua aspek berikut.
Pertama sekali, untuk set data penanda aras, kami boleh mempertimbangkan untuk membina set data video berkualiti tinggi untuk tugas ini, yang boleh mempromosikan reka bentuk dan penilaian algoritma berkaitan video dengan cepat, yang bermanfaat untuk pembangunan komuniti pemulihan muka;
Kedua, untuk kaedah pemulihan video, kita harus membangunkan kaedah pemulihan muka berasaskan video dengan mempertimbangkan sepenuhnya maklumat spatial dan temporal antara bingkai video berturut-turut.
Pemulihan muka dunia sebenar dan aplikasi
Kaedah sedia ada bergantung pada data sintetik untuk melatih model rangkaian. Walau bagaimanapun, rangkaian terlatih tidak semestinya menunjukkan keupayaan generalisasi yang baik dalam senario dunia sebenar.
Seperti yang ditunjukkan dalam Rajah 19, kebanyakan kaedah pemulihan muka tidak berfungsi dengan baik apabila menghadapi imej muka dunia sebenar. Kerana terdapat jurang domain data yang besar antara data sintetik dan data dunia sebenar.
Walaupun beberapa kaedah telah memperkenalkan beberapa penyelesaian untuk menyelesaikan masalah ini, seperti teknik tanpa pengawasan atau mempelajari teknik degradasi imej sebenar. Walau bagaimanapun, mereka masih bergantung pada beberapa andaian khusus bahawa semua imej mengalami kemerosotan yang sama.
Oleh itu, aplikasi dunia sebenar kekal sebagai hala tuju yang mencabar untuk tugas pemulihan muka.
Tambahan pula, beberapa kaedah telah menunjukkan bahawa pemulihan muka boleh meningkatkan prestasi tugasan seterusnya seperti pengesahan muka dan pengecaman muka. Walau bagaimanapun, cara menggabungkan tugas pemulihan muka dengan tugasan ini dalam rangka kerja juga merupakan hala tuju penyelidikan masa hadapan.
Tugas lain yang berkaitan
Selain tugas pemulihan muka yang dibincangkan di atas, terdapat banyak lagi tugas berkaitan yang berkaitan untuk menghadapi tugas pemulihan termasuk ubah suai muka, sintesis lakaran foto, terjemahan bersemuka, pemulihan muka, peningkatan warna dan pemulihan foto lama.
Contohnya, pemulihan muka bertujuan untuk memulihkan kawasan yang hilang pada imej muka melalui pemadanan atau pembelajaran. Ia bukan sahaja perlu menjana piksel baharu secara semantik untuk komponen muka yang hilang, tetapi ia juga harus mengekalkan konsistensi struktur dan penampilan muka. Pemulihan foto lama ialah tugas memulihkan foto lama yang degradasinya agak pelbagai dan kompleks (cth., hingar, kabur dan pudar).
Selain itu, beberapa tugas memfokuskan pada pemindahan gaya muka, seperti terjemahan bersemuka dan analisis ekspresi muka, yang berbeza daripada tugas pemulihan muka.
Oleh itu, menggunakan kaedah pemulihan muka sedia ada pada tugasan berkaitan ini juga merupakan hala tuju yang menjanjikan, yang boleh mencetuskan lebih banyak aplikasi.
Rujukan: https://arxiv.org/abs/2211.02831
Atas ialah kandungan terperinci Ulasan pertama 'Pemulihan Wajah' Wanzi Interpretation! Dikeluarkan bersama oleh NTU, Sun Yat-sen, Australian National University, Imperial College, dsb.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!