Ces dernières années, avec le développement du deep learning et l'émergence d'ensembles de données à grande échelle, le deep learning a progressé dans de nombreux domaines, mais la tâche « Restauration du visage » manque encore d'une revue systématique.
Récemment, des chercheurs de l'Université de Nanjing, de l'Université nationale australienne, de l'Université Sun Yat-sen, de l'Imperial College de Londres et de Tencent ont examiné et résumé de manière approfondie les progrès de la recherche sur la technologie de restauration du visage basée sur l'apprentissage profond, et ont mené un examen des méthodes de restauration du visage. La classification, l'architecture du réseau, la fonction de perte et les ensembles de données de référence sont discutés, et une évaluation systématique des performances des méthodes SOTA existantes est effectuée.
Lien papier : https://arxiv.org/abs/2211.02831
Lien référentiel : https://github.com/TaoWangzj/Awesome-Face-Restoration
Cet article est également humain La première revue dans le domaine de la restauration du visage, ses principales contributions sont :
1. Examen des principaux modèles de dégradation et indicateurs d'évaluation couramment utilisés dans la tâche de restauration du visage, et résumé des caractéristiques de la saillance de l'image du visage
. 2. Résume les défis actuels rencontrés par la restauration du visage, classe et décrit les méthodes existantes. Les méthodes comprennent principalement deux catégories : les méthodes de restauration d'apprentissage profond basées sur les a priori et les méthodes de restauration d'apprentissage profond sans a priori 3 L'architecture réseau de base, les modules réseau de base, les fonctions de perte et les données standard utilisées dans les méthodes sont triées ; 4. Réalisation d'une évaluation expérimentale systématique des méthodes SOTA existantes sur des ensembles de données de référence publiques ; 5. Architecture générale de l'article Contexte de recherche La restauration des visages (FR) est un problème spécifique de restauration d'images en vision de bas niveau, visant à récupérer des visages à partir de visages d'entrée de faible qualité Élevé -des images de visage de qualité sont récupérées à partir des images. D'une manière générale, le modèle de dégradation peut être décrit comme : où I(lq) est une image de visage de faible qualité, D est une fonction de dégradation non corrélée au bruit et n est un bruit gaussien additif. Lorsque la fonction de dégradation D est différente, elle correspond à des modèles de dégradation différents. Par conséquent, la tâche FR peut être considérée comme le processus inverse de résolution du modèle de dégradation ci-dessus, qui peut être exprimé comme suit : Selon différentes fonctions de dégradation, les tâches de restauration du visage peuvent être principalement divisées en : cinq catégories suivantes, qui correspondent respectivement à différents modèles de dégradation : 1. Débruitage du visage (FDN) : supprime le bruit dans les images de visage et restaure des visages de haute qualité ; (FDB) : supprimez le flou des images de visage et restaurez des visages de haute qualité 3. Récupérez des visages de haute résolution et de haute qualité à partir de basse qualité. résolution des visages ;4. Suppression des artefacts du visage (FAR) : supprimez les artefacts qui apparaissent pendant le processus de compression de l'image du visage et restaurez les visages de haute qualité ; Restauration (BFR) : Restaurer des visages dégradés inconnus de mauvaise qualité. Les visages sont restaurés en visages de haute qualité
Caractéristiques du visageDifférentes des tâches générales de restauration d'images naturelles, les images de visage contiennent de fortes informations structurelles. les tâches de restauration du visage peuvent utiliser Les informations préalables de l'image du visage sont utilisées pour aider le processus de restauration du visage. Les informations préalables peuvent être principalement divisées en trois parties suivantes :.
Informations sur les attributs de la personne : telles que le sexe, l'âge, le port ou non de lunettes, comme indiqué dans la figure ci-dessous
Informations sur l'identité de la personne
Autres informations préalables : comme indiqué dans la figure ci-dessous ; , représentatif Les priors comprennent des repères de visage, des cartes thermiques de visage, des cartes d'analyse de visage et des priors de visage 3D
Principaux défis auxquels est confrontée la restauration du visage
1. .
Étant donné que le type de dégradation et les paramètres de dégradation des images de visage de faible qualité sont inconnus à l'avance, l'estimation d'images de visage de haute qualité à partir d'images dégradées est un problème mal posé.
En revanche, dans les scénarios réels, la dégradation des images de visages est complexe et diversifiée. Par conséquent, il est difficile de concevoir un modèle de restauration faciale efficace et robuste pour résoudre ce problème mal posé.
2. Il est difficile d'explorer des antécédents de visage inconnus.
Il est difficile pour les algorithmes de restauration de visage existants d'utiliser pleinement les connaissances préalables du visage, car les antécédents du visage (tels que les composants du visage et les repères du visage) sont généralement estimés à partir d'images de visage de mauvaise qualité, de visages de mauvaise qualité. Cela peut entraîner des erreurs. estimation préalable, ce qui affecte directement les performances de l'algorithme de restauration du visage.
D'un autre côté, les images de visage capturées dans des scènes réelles contiennent souvent des types de dégradation complexes et divers, et il est très difficile de trouver un visage approprié avant d'assister au processus de restauration du visage. Par conséquent, comment extraire des a priori raisonnables est un défi.
3. Manque de grands ensembles de données de référence publics.
Avec le développement de la technologie d'apprentissage profond, les méthodes basées sur l'apprentissage profond ont montré des performances impressionnantes en matière de restauration du visage. La plupart des méthodes de restauration de visage basées sur l'apprentissage profond s'appuient fortement sur des ensembles de données à grande échelle pour entraîner le réseau.
Cependant, la plupart des méthodes actuelles de restauration du visage sont généralement entraînées ou testées sur des ensembles de données non publiques. Par conséquent, il est actuellement difficile de faire une comparaison directe et équitable des méthodes existantes de restauration du visage.
De plus, le manque de benchmarks de haute qualité et à grande échelle limite le potentiel du modèle. Cependant, il est encore difficile d’obtenir des données faciales à grande échelle, ce qui rend difficile la création d’un ensemble de données de référence public raisonnable pour les tâches de restauration faciale.
4. L'algorithme de restauration du visage a une capacité de généralisation limitée dans les scénarios réels.
Bien que les méthodes basées sur l'apprentissage profond aient obtenu de bonnes performances en matière de restauration du visage, la plupart des méthodes s'appuient sur des stratégies de formation supervisées.
C'est-à-dire que ces méthodes nécessitent des ensembles de données appariés (paires d'images de faible qualité et de haute qualité). Si cette condition n'est pas remplie, leurs performances seront considérablement réduites.
D'un autre côté, il est difficile de collecter des ensembles de données à grande échelle avec des échantillons appariés dans des scénarios réels. Par conséquent, les algorithmes formés sur des ensembles de données synthétiques ont de faibles capacités de généralisation dans des scénarios réels, limitant ainsi l'applicabilité du modèle dans des scénarios réels. Par conséquent, il est difficile de savoir comment améliorer la capacité de généralisation des algorithmes de visage dans des scénarios réels.
Jusqu'à présent, les chercheurs ont proposé de nombreux algorithmes de restauration du visage pour tenter de résoudre les défis ci-dessus. La figure ci-dessous montre une étape concise de la méthode de restauration du visage basée sur l'apprentissage profond.
Comme le montre la figure, le nombre de méthodes de restauration du visage basées sur l'apprentissage profond a augmenté d'année en année depuis 2015.
Ces méthodes de restauration du visage sont divisées en deux catégories : les méthodes de restauration par apprentissage profond basées sur des antécédents et les méthodes de restauration par apprentissage profond non basées sur des antécédents.
Quant aux méthodes de restauration par apprentissage profond basées sur des a priori, nous les divisons en trois catégories : les méthodes de restauration par apprentissage profond basées sur des a priori géométriques, les méthodes de restauration en profondeur basées sur des a priori de référence et les méthodes de restauration en profondeur basées sur des a priori génératifs.
Ce qui suit est une brève introduction aux algorithmes représentatifs de restauration de visage.
Méthodes de restauration profonde basées sur un préalable géométrique
Cette méthode utilise principalement la forme géométrique unique et les informations de distribution spatiale du visage dans l'image pour aider le modèle à restaurer progressivement des visages de haute qualité. Les a priori géométriques typiques incluent les repères de visage, les cartes thermiques de visage, les cartes d'analyse faciale et les composants du visage. Les travaux représentatifs incluent :
SuperFAN : il s'agit de la première méthode de bout en bout permettant d'obtenir simultanément des tâches de super-résolution du visage et de positionnement des points de repère du visage.
L'idée principale de cette méthode est d'utiliser une stratégie de formation aux tâches conjointes pour guider le réseau afin d'apprendre davantage d'informations géométriques sur le visage afin d'aider le modèle à obtenir une super-résolution du visage et un positionnement efficace des points de repère du visage.
MTUN : Il s'agit d'une méthode de restauration de visage qui contient deux réseaux de branches. Le premier réseau de branches est utilisé pour obtenir une super-résolution des images de visage, et la deuxième branche est utilisée pour estimer la carte thermique de la composition du visage.
Cette méthode montre que l'utilisation des informations sur les éléments du visage dans des images de visage de mauvaise qualité peut encore améliorer les performances de la restauration algorithmique du visage.
PSFR-GAN : C'est une méthode de restauration de visage aveugle basée sur un réseau progressif multi-échelle. L'idée principale de cette méthode est de restaurer progressivement les détails du visage grâce à un transfert de style sémantique en utilisant des images de visage multi-échelles de faible qualité et des cartes d'analyse humaine en entrée.
Méthodes de restauration profonde basées sur les a priori de référence
Dans le passé, les méthodes de restauration du visage reposaient uniquement sur des images dégradées pour estimer les a priori du visage. Cependant, le processus de dégradation de l'image du visage est généralement hautement pathologique, ces méthodes ne peuvent pas obtenir un visage précis. priors uniquement via des images dégradées
Par conséquent, un autre type de méthode obtient la structure du visage ou le dictionnaire des composants du visage en utilisant d'abord des images de visage supplémentaires de haute qualité comme référence de visage. Les expériences sont d'abord utilisées pour guider le modèle pour une restauration efficace du visage. :
GFRNet : Ce modèle de réseau se compose d'un réseau de distorsion (WarpNet) et d'un réseau de reconstruction (RecNet) pour fournir des informations de guidage de distorsion. Il corrige la posture et l'expression du visage en générant des champs de flux pour déformer les images de référence. des images de qualité et des informations de guidage déformées comme entrée en même temps pour générer des images de visage de haute qualité : ce travail est proposé sur la base de GFRNet, il est formé de manière contradictoire pour générer des images de visage de haute qualité. avec GFRNet, GWAInet ne s'appuie pas sur des marqueurs de visage lors de la phase d'entraînement. Ce modèle accorde plus d'attention à l'ensemble de la zone du visage. Augmente la robustesse du modèle
DFDNet : Cette méthode utilise d'abord l'algorithme K-means pour générer. un dictionnaire approfondi pour les composants du visage perceptuellement significatifs (c'est-à-dire les yeux gauche/droit, le nez et la bouche) à partir d'images de haute qualité, puis sélectionnez les caractéristiques des composants les plus similaires dans le dictionnaire de composants généré, transférez les détails vers des images de visage de faible qualité et guidez-les ; le modèle pour effectuer la restauration du visage
Méthode de restauration profonde générative basée sur les priorités)
Avec le développement rapide des réseaux contradictoires génératifs (GAN), la recherche a découvert que des modèles GAN de visage pré-entraînés, tels que StyleGAN. et StyleGAN2, peuvent fournir des a priori de visage plus riches (tels que la géométrie et la texture du visage)
Par conséquent, les chercheurs ont commencé à utiliser le modèle auxiliaire antérieur généré par GAN pour la restauration du visage. Les travaux représentatifs incluent :
PULSE : Le noyau. de ce travail consiste à optimiser de manière itérative le code latent de StyleGAN pré-entraîné jusqu'à ce que la sortie et la distance entre les entrées soient inférieures au seuil, permettant une super-résolution faciale efficace
GFP-GAN : Ce travail exploite les priorités riches et diverses dans des modèles GAN pré-entraînés en tant qu'a priori génératifs pour guider le modèle de restauration de visage. Cette méthode comprend principalement un module de suppression de dégradation et un module préalable basé sur un modèle GAN pré-entraîné. Ces deux modules effectuent un transfert d'informations efficace via un modèle latent. connexion de code et plusieurs couches de conversion de caractéristiques spatiales de segmentation de canal
GPEN : L'idée principale de cette méthode est d'intégrer efficacement les avantages des différents frameworks de GAN et DNN pour obtenir une restauration de visage efficace. GPEN apprend d'abord un modèle GAN pour générer des images de visage de haute qualité ; puis intègre ce modèle GAN pré-entraîné dans un réseau convolutionnel profond en tant que décodeur a priori ; et affine enfin ce réseau convolutionnel profond pour réaliser la reconnaissance faciale. Méthodes de restauration profonde non préalables : (Méthodes de restauration profonde non préalables) Bien que la plupart des méthodes de restauration du visage basées sur l'apprentissage profond puissent restaurer des personnes satisfaisantes à l'aide des visages antérieurs, mais en s'appuyant sur le visage les priors exacerbent quelque peu le coût de génération d’images de visage. Pour résoudre ce problème, une autre classe de méthodes vise à concevoir un modèle de réseau de bout en bout pour apprendre directement la fonction de mappage entre les images de visage de mauvaise qualité et de haute qualité sans introduire de test de visage supplémentaire. Les travaux représentatifs incluent : BCCNN : un modèle de réseau neuronal convolutif à deux canaux pour la super-résolution du visage. Il se compose d'un extracteur de caractéristiques et d'un générateur d'images, où l'extracteur de caractéristiques extrait des représentations de visage robustes à partir d'images de visage basse résolution et le générateur d'images fait correspondre de manière adaptative la représentation de visage extraite avec le visage d'entrée. Les images sont fusionnées pour générer une image haute résolution. . HiFaceGAN : Cette méthode transforme le problème de restauration de visage en un problème de génération sémantiquement guidée et conçoit le modèle HifaceGAN pour réaliser la restauration de visage. Ce modèle de réseau est un cadre à plusieurs étapes contenant plusieurs modules inhibiteurs coopératifs et modules supplémentaires. Cette conception structurelle réduit la dépendance du modèle à l'égard d'antécédents dégénérés ou de structures de formation. RestoreFormer : Il s'agit d'une méthode de restauration de visage de bout en bout basée sur Transformer. Il explore principalement le mécanisme d'attention plein espace pour la modélisation des informations contextuelles. L'idée principale de cette méthode comporte principalement deux points. Le premier est de proposer une couche d'attention croisée multi-têtes pour apprendre l'interaction plein espace entre les requêtes corrompues et les paires clé-valeur de haute qualité. Le deuxième point est que les paires clé-valeur du mécanisme d’attention sont échantillonnées à partir de dictionnaires de haute qualité, qui contiennent des caractéristiques faciales de haute qualité.La figure ci-dessous résume de manière exhaustive les caractéristiques des méthodes de restauration du visage basées sur l'apprentissage profond ces dernières années.
où Plain représente une méthode de restauration en profondeur basée sur un a priori non antérieur, le composant facial et l'a priori géométrique représentent deux types de méthodes de restauration en profondeur basées sur un a priori géométrique, et Reference prior représente une profondeur basée sur un a priori de référence . Méthode de restauration, Generative prior signifie une méthode de restauration profonde non basée sur des priorités, Deep CNN, GAN et ViT signifient respectivement que le modèle utilise un réseau neuronal convolutif profond, un réseau contradictoire génératif et une structure de réseau Visual Transformer.
Cette section passe en revue de manière exhaustive le processus de développement technologique des méthodes de restauration du visage basées sur l'apprentissage en profondeur. Elle résume et analyse principalement les aspects suivants : l'architecture de base du modèle de réseau, l'utilisation de base de. Modules, fonctions de perte utilisées par le modèle et ensembles de données de référence liés au visage.
Architecture de réseau
L'architecture de réseau des méthodes existantes de restauration de visage basées sur l'apprentissage en profondeur est principalement divisée en trois catégories : les méthodes basées sur des conseils préalables, les méthodes basées sur la structure du réseau GAN et les méthodes basées sur la structure du réseau ViT. méthode. C’est pourquoi nous discutons de ces évolutions dans cette section.
Méthodes basées sur des conseils préalables
Ce type de méthode peut être principalement divisé en quatre types, à savoir la méthode de restauration du visage basée sur le pré-prior (méthode de restauration du visage pré-prior), l'estimation préalable des articulations et le visage méthode de restauration (méthode de restauration de face antérieure commune), méthode de restauration de face basée sur un a priori intermédiaire (méthode de restauration de face pré-antérieure), méthode de restauration de face basée sur un a priori de référence (méthode de restauration de face antérieure de référence).
Le schéma structurel concis des quatre méthodes ci-dessus est le suivant :
Les méthodes de restauration du visage basées sur les pré-priorités utilisent généralement d'abord un réseau d'estimation préalable (tel qu'un réseau d'estimation préalable du visage ou une pré-formation). modèle GAN de visage) estime les priors de visage à partir d'images d'entrée de faible qualité, puis utilise un réseau pour générer des visages de haute qualité à l'aide des priors de visage et des images de visage.
La méthode typique est illustrée dans la figure ci-dessous. Les chercheurs ont conçu un réseau d'analyse de visage pour extraire d'abord les étiquettes sémantiques des visages des images de visage floues d'entrée, puis saisir les images floues et les étiquettes sémantiques des visages dans un algorithme de suppression du flou. en même temps. Réseau pour générer des images de visage claires.
La méthode conjointe d'estimation préalable et de restauration du visage explore principalement la relation complémentaire entre la tâche d'estimation préalable du visage et la tâche de restauration du visage. Ce type de méthode entraîne généralement conjointement le réseau de restauration de visage et le réseau d'estimation préalable, de sorte que ce type de méthode prend en compte les avantages des deux sous-tâches, ce qui peut directement améliorer les performances de la tâche de restauration de visage.
La méthode typique est présentée dans la figure ci-dessous. Les chercheurs ont proposé un modèle de réseau qui combine l'alignement du visage et la super-résolution du visage. Cette méthode estime conjointement la position du point de repère du visage et l'image du visage en super-résolution.
L'idée de base de la méthode de restauration du visage basée sur un a priori intermédiaire est d'abord d'utiliser un réseau de restauration pour générer une image brute du visage, puis d'estimer les informations préalables du visage à partir de l'image brute , ce qui est plus efficace que directement. Des informations préalables plus précises peuvent être obtenues à partir d'images d'entrée de faible qualité.
La méthode typique est présentée dans la figure ci-dessous. Les chercheurs ont proposé le modèle de réseau FSRNet, qui effectue une estimation préalable des faces au milieu du réseau.
Plus précisément, FSRNet utilise d'abord un réseau SR grossier pour restaurer grossièrement l'image ; puis utilise un encodeur SR fin et un réseau d'estimation préalable pour effectuer une estimation et un raffinement a priori de l'image résultat grossière ; et des informations préalables sont simultanément entrées dans un décodeur SR fin pour récupérer le résultat final.
Méthodes basées sur la structure du réseau GAN
Ce type de méthode est principalement divisé en deux types : les méthodes basées sur une architecture GAN simple (méthode Plain GAN) et les méthodes basées sur Méthode de structure GAN Embedded pré-entraînée (méthode d'intégration GAN pré-entraînée).
Le schéma de structure concis de ces deux méthodes est le suivant :
Les méthodes basées sur l'architecture GAN ordinaire introduisent généralement des pertes contradictoires dans le modèle de réseau, puis utilisent des stratégies d'apprentissage contradictoire pour optimiser conjointement le discriminateur et le générateur (réseau de restauration de visage) afin de générer des images de visage plus réalistes.
La méthode typique est présentée dans la figure ci-dessous. Les chercheurs ont proposé le modèle de réseau HLGAN, qui se compose de deux réseaux antagonistes génératifs.
Le premier est le réseau High-to-Low GAN, qui utilise des images non appariées pour la formation afin d'apprendre le processus de dégradation des images haute résolution. La sortie du premier réseau (c'est-à-dire des images de visage basse résolution) est utilisée pour entraîner le deuxième réseau GAN bas à haut afin d'obtenir une super-résolution de visage.
L'idée principale de la méthode basée sur la structure intégrée GAN pré-entraînée est d'utiliser le potentiel préalable dans le modèle GAN de visage pré-entraîné (tel que StyleGAN), puis de fusionner le potentiel préalable à la restauration du visage Dans le processus, une restauration efficace du visage est obtenue à l'aide de stratégies d'apprentissage préalable latent et contradictoire.
La méthode typique est présentée dans la figure ci-dessous. Les chercheurs ont conçu un modèle GFP-GAN. Ce modèle comprend principalement un module de suppression de dégradation et un module a priori basé sur le modèle GAN pré-entraîné. code et plusieurs couches de transformation de caractéristiques spatiales de segmentation de canal pour un transfert d'informations efficace.
Méthode basée sur la structure du réseau ViT
Récemment, l'architecture réseau Visual Transformer (ViT) a montré d'excellentes performances dans des domaines tels que le traitement du langage naturel et la vision par ordinateur, qui ont également inspiré Transformer Application de l'architecture pour faire face aux tâches de restauration.
La méthode typique est présentée dans la figure ci-dessous. Basée sur Swin Transformer, les chercheurs ont proposé un réseau Swin Transformer U-Net (STUNet) de bout en bout pour la restauration du visage.
Dans STUNet, le module transformateur utilise le mécanisme d'auto-attention et la stratégie de fenêtre de décalage pour aider le modèle à se concentrer sur des fonctionnalités plus importantes qui sont bénéfiques pour faire face à la restauration. Cette méthode a obtenu de bonnes performances.
Modules couramment utilisés dans les modèles de réseau
Dans le domaine de la restauration du visage, les chercheurs ont conçu différents types de modules de base pour construire de puissants réseaux de restauration du visage. Les modules de base couramment utilisés sont présentés dans la figure ci-dessous. Ces modules de base comprennent principalement le module résiduel (bloc résiduel), le module dense (bloc dense), le module d'attention (bloc d'attention de canal, bloc d'attention de canal résiduel, bloc d'attention spatiale) et le module Transformateur. (Bloc transformateur).
Fonction de perte
Les fonctions de perte courantes dans les tâches de restauration du visage incluent principalement les catégories suivantes : perte par pixel (incluant principalement les pertes L1 et L2), perte de perception, perte contradictoire, spécifique au visage perte. Diverses méthodes de restauration du visage et les fonctions de perte qu'elles utilisent sont résumées dans le tableau suivant :
Ensemble de données
Les ensembles de données publiques et les informations statistiques associées liées à la tâche de restauration du visage sont résumées comme suit :
Comparaison des performances
Cet article résume et teste les performances de certaines méthodes représentatives de restauration du visage en termes de PSNR/SSIM/MS-SSIM/LPIPS/NIQE
Comparaison des résultats quantitatifs
Comparaison des résultats qualitatifs
Comparaison de la complexité des méthodes
Bien que basé sur l'apprentissage profond Face les méthodes de restauration ont fait quelques progrès, mais il reste encore de nombreux défis et problèmes non résolus.
Conception de la structure du réseau
Pour les méthodes de restauration du visage basées sur l'apprentissage profond, la structure du réseau peut avoir un impact significatif sur les performances de la méthode.
Par exemple, les méthodes récentes basées sur Transformer ont souvent de meilleures performances en raison des puissantes capacités de l'architecture Transformer. Les méthodes basées sur le GAN peuvent générer des images de visage plus agréables visuellement.
Par conséquent, lors de la conception d'un réseau, il vaut la peine d'apprendre et de faire des recherches auprès de différentes structures telles que CNN, GAN et ViT.
D'un autre côté, les modèles récents basés sur Transformer contiennent généralement des paramètres plus grands et nécessitent des coûts de calcul plus élevés, ce qui les rend difficiles à déployer dans des appareils de pointe.
Par conséquent, la façon de concevoir un réseau léger doté de performances puissantes est une autre direction de recherche potentielle pour les travaux futurs.
La fusion de l'antériorité faciale et du réseau
En tant que tâche de restauration d'image dans un domaine spécifique, les traits du visage peuvent être utilisés pour des tâches de restauration de visage. Lors de la conception de modèles, de nombreuses méthodes visent à utiliser les a priori du visage pour récupérer des détails réalistes du visage.
Bien que certaines méthodes tentent d'introduire des a priori géométriques, des composants faciaux, des a priori génératifs ou des a priori 3D dans le processus de restauration du visage, la manière d'intégrer plus raisonnablement les informations a priori dans le réseau reste une tâche prometteuse pour cette direction.
De plus, l'exploration approfondie de nouveaux a priori liés aux visages, tels que les a priori provenant de GAN pré-entraînés ou de statistiques de données dans le réseau, est également une autre direction de cette tâche.
Fonction de perte et indice d'évaluation
Pour la tâche de restauration du visage, les fonctions de perte largement utilisées sont la perte L1, la perte L2, la perte perceptuelle, la perte contradictoire et la perte spécifique au visage, comme le montre le tableau 3.
Les méthodes existantes n'utilisent généralement pas une seule fonction de perte, mais combinent plusieurs fonctions de perte avec les poids correspondants pour entraîner le modèle. Cependant, on ne sait pas comment concevoir une fonction de perte plus raisonnable pour guider la formation du modèle.
Par conséquent, à l'avenir, on s'attend à ce que davantage de travaux recherchent des fonctions de perte plus précises (par exemple, des fonctions de perte universelles ou axées sur les tâches du visage) pour promouvoir le développement de la tâche de restauration du visage. De plus, la fonction de perte peut affecter directement les résultats d’évaluation du modèle. Comme le montrent les tableaux 5, 6 et 7, la perte L1 et la perte L2 ont tendance à obtenir de meilleurs résultats en termes de PSNR, SSIM et MS-SSIM.
La perte de perception et la perte contradictoire ont tendance à produire des résultats plus satisfaisants (c'est-à-dire produire des valeurs LPIPS, FID et NIQE élevées). Par conséquent, la manière de développer des indicateurs capables de prendre en compte à la fois les aspects humains et machines pour évaluer plus raisonnablement les performances du modèle constitue également une orientation très importante pour l’avenir.
Surcharge de calcul
Les méthodes de restauration de visage existantes améliorent généralement les performances de restauration en augmentant considérablement la profondeur ou la largeur du réseau, tout en ignorant le coût de calcul du modèle.
Le coût de calcul élevé empêche ces méthodes d'être utilisées dans des environnements aux ressources limitées, tels que les appareils mobiles ou embarqués.
Par exemple, comme le montre le tableau 8, la méthode de pointe RestoreFormer a une quantité de calcul de 72,37 millions de paramètres et 340,80 G MAC, ce qui est très difficile à déployer dans des applications du monde réel. Par conséquent, développer des modèles avec moins de coûts de calcul constitue une orientation future importante.
Ensemble de données de référence
Contrairement à d'autres tâches de vision de bas niveau telles que la suppression du flou d'image, le débruitage et le débruitage d'image, il existe peu de références d'évaluation standard pour la restauration du visage.
Par exemple, la plupart des méthodes de restauration de visage sont généralement expérimentées sur des ensembles de données privés (ensemble d'entraînement synthétique de la FFHQ).
Les chercheurs peuvent être tentés d'utiliser des données biaisées en faveur de la méthode qu'ils proposent. D’un autre côté, afin d’effectuer une comparaison équitable, les travaux de suivi nécessitent beaucoup de temps pour synthétiser des ensembles de données privées et recycler d’autres méthodes de comparaison. De plus, les ensembles de données récemment largement utilisés sont souvent de petite taille et inadaptés aux méthodes d’apprentissage profond.
Par conséquent, le développement d’ensembles de données de référence standard est une direction pour la tâche de restauration du visage. À l’avenir, nous attendons des chercheurs de la communauté qu’ils construisent davantage d’ensembles de données de référence standard et de haute qualité.
Restauration de visage vidéo
Avec la popularité des appareils mobiles tels que les téléphones portables et les appareils photo, la tâche de restauration de visage vidéo est devenue de plus en plus importante. Cependant, les travaux existants se concentrent principalement sur les tâches de restauration de visages d’images, tandis que les travaux de restauration de visages liés à la vidéo sont moins courants.
D'autre part, d'autres tâches de vision de bas niveau telles que le défloutage vidéo, la super-résolution vidéo et le débruitage vidéo se sont développées rapidement ces dernières années.
Par conséquent, la restauration vidéo des visages est une direction potentielle pour la communauté. La tâche de restauration de visage vidéo peut être envisagée sous les deux aspects suivants.
Tout d'abord, pour l'ensemble de données de référence, nous pouvons envisager de créer un ensemble de données vidéo de haute qualité pour cette tâche, qui peut rapidement promouvoir la conception et l'évaluation d'algorithmes liés à la vidéo, ce qui est bénéfique pour le développement de la communauté de la restauration faciale.
Deuxièmement, pour les méthodes de restauration vidéo, nous devrions développer des méthodes de restauration de visage basées sur la vidéo en tenant pleinement compte des informations spatiales et temporelles entre les images vidéo consécutives.
Restauration de visages et applications dans le monde réel
Les méthodes existantes s'appuient sur des données synthétiques pour entraîner des modèles de réseau. Cependant, le réseau formé ne montre pas nécessairement une bonne capacité de généralisation dans des scénarios réels.
Comme le montre la figure 19, la plupart des méthodes de restauration de visage ne fonctionnent pas bien face à des images de visage réelles. Parce qu’il existe un écart important dans le domaine des données entre les données synthétiques et les données du monde réel.
Bien que certaines méthodes aient introduit des solutions pour résoudre ce problème, comme des techniques non supervisées ou l'apprentissage de véritables techniques de dégradation d'image. Cependant, ils reposent toujours sur certaines hypothèses spécifiques selon lesquelles toutes les images souffrent d’une dégradation similaire.
Par conséquent, les applications du monde réel restent une direction difficile pour la tâche de restauration du visage.
De plus, certaines méthodes ont montré que la restauration du visage peut améliorer les performances des tâches ultérieures telles que la vérification du visage et la reconnaissance du visage. Cependant, la manière de combiner la tâche de restauration du visage avec ces tâches dans un cadre constitue également une orientation de recherche future.
Autres tâches connexes
En plus des tâches de restauration de visage évoquées ci-dessus, il existe de nombreuses tâches liées à la restauration de visage, notamment la modification de visage, la synthèse de croquis de photos, la traduction face à face, la restauration de visage humain. , rehaussement des couleurs et restauration de photos anciennes.
Par exemple, la restauration faciale vise à restaurer les zones manquantes d'une image faciale grâce à la correspondance ou à l'apprentissage. Non seulement il doit générer sémantiquement de nouveaux pixels pour les composants manquants du visage, mais il doit également maintenir la cohérence de la structure et de l’apparence du visage. La restauration de photos anciennes consiste à restaurer des photos anciennes dont la dégradation est assez diverse et complexe (par exemple, bruit, flou et décoloration).
De plus, certaines tâches se concentrent sur le transfert de style facial, comme la traduction face à face et l'analyse des expressions faciales, qui sont différentes des tâches de restauration du visage.
Par conséquent, l’application des méthodes existantes de restauration du visage à ces tâches connexes est également une direction prometteuse, qui peut déclencher davantage d’applications.
Référence : https://arxiv.org/abs/2211.02831
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!