Avec le développement fulgurant de l'industrie de la culture numérique, la technologie de l'intelligence artificielle a commencé à être largement utilisée dans le domaine de l'édition et de l'embellissement d'images. Parmi elles, l’embellissement de la peau en portrait est sans aucun doute l’une des technologies les plus utilisées et les plus demandées. Les algorithmes de beauté traditionnels utilisent une technologie d'édition d'images basée sur des filtres pour obtenir des effets automatisés de resurfaçage de la peau et d'élimination des imperfections, et ont été largement utilisés dans les réseaux sociaux, les diffusions en direct et d'autres scénarios.
Cependant, dans le secteur de la photographie professionnelle avec des seuils élevés, en raison des exigences élevées en matière de résolution d'image et de normes de qualité, les retoucheurs manuels constituent toujours la principale productivité de la retouche cutanée des portraits, y compris le lissage de la peau et l'élimination des imperfections, le blanchiment et l'élimination des imperfections. série d'autres tâches. Habituellement, le temps de traitement moyen nécessaire à un retoucheur professionnel pour effectuer des opérations d'embellissement de la peau sur un portrait haute définition est de 1 à 2 minutes. Dans des domaines tels que la publicité, le cinéma et la télévision, qui nécessitent une plus grande précision, le temps de traitement sera plus long.
Par rapport au resurfaçage de la peau dans les scènes de divertissement interactives, l'embellissement raffiné de la peau au niveau de la publicité et du studio apporte des exigences et des défis plus élevés à l'algorithme. D'une part, il existe de nombreux types d'imperfections, notamment l'acné, les marques d'acné, les taches de rousseur, le teint irrégulier, etc. L'algorithme doit traiter de manière adaptative différentes imperfections, d'autre part, lors du processus d'élimination des imperfections, la texture de ; la peau doit être préservée autant que possible, sa texture et obtenir une modification de la peau de haute précision ; enfin, avec l'itération continue de l'équipement photographique, la résolution d'image couramment utilisée dans la photographie professionnelle a atteint 4K ou même 8K, ce qui pose des problèmes extrêmement importants pour l’efficacité du traitement de l’algorithme.
Par conséquent, avec comme point de départ la réalisation d'une embellissement intelligent de la peau de niveau professionnel, nous avons développé un ensemble d'algorithmes de retouche locale ultra-fins ABPN pour les images haute définition, qui ont été mis en œuvre à la fois dans l'embellissement de la peau et dans l'élimination des rides des vêtements. tâches dans des images ultra-claires. Très bons résultats et applications.
3.1 Algorithme de beauté traditionnel
Le cœur de l'algorithme de beauté traditionnel est de rendre les pixels de la zone cutanée plus lisses et de réduire l'apparence des défauts, rendant ainsi La peau paraît plus lisse. De manière générale, les algorithmes d'embellissement existants peuvent être divisés en trois étapes : 1) algorithme de filtrage d'image, 2) fusion d'image et 3) netteté. Le processus global est le suivant :
Afin d'obtenir un lissage de la zone cutanée tout en conservant les bords de l'image, l'algorithme de beauté traditionnel utilise d'abord des filtres préservant les bords (tels que le filtrage bilatéral, le filtrage guidé, etc.) pour traiter l’image. Différent du filtre moyen et du filtre gaussien couramment utilisés, le filtre de préservation des bords prend en compte les changements de valeurs de pixels dans différentes zones et adopte des poids différents pour les parties de bord avec de grands changements de pixels et les pixels dans la zone médiane avec changements doux, obtenant ainsi la réserve des bords de l'image. Ensuite, afin de ne pas affecter la zone de fond, des algorithmes de détection de segmentation sont généralement utilisés pour localiser la zone cutanée et guider la fusion de l'image originale et de l'image lissée. Enfin, la netteté peut encore améliorer la proéminence des bords et la clarté sensorielle. L'image suivante montre l'effet de l'algorithme de beauté traditionnel actuel :
L'image originale provient d'unsplash [31]
Du point de vue de l'effet, il y a deux problèmes majeurs avec l'algorithme de beauté traditionnel : 1) Le traitement des défauts est non adaptatif et ne peut pas bien gérer différents types de défauts. 2) Le traitement de lissage entraîne une perte de texture et de texture de la peau. Ces problèmes sont particulièrement visibles dans les images haute définition.
3.2 Algorithmes d'apprentissage profond existants
Afin de parvenir à une modification adaptative des différentes zones de la peau et des différents défauts, les algorithmes d'apprentissage profond basés sur les données semblent être une meilleure solution. Compte tenu de la pertinence de la tâche, nous avons discuté et comparé l'applicabilité de quatre méthodes existantes, à savoir la traduction d'image à image, la retouche de photos, l'inpainting d'images et l'édition d'images haute résolution, à la tâche d'embellissement de la peau.
La tâche de traduction d'image à image a été définie à l'origine par pix2pix [1], qui résume un grand nombre de tâches de vision par ordinateur en prédiction pixel à pixel. tâche, et un cadre général basé sur des réseaux contradictoires génératifs conditionnels est proposé pour résoudre ce type de problème. Sur la base de pix2pix [1], diverses méthodes ont été proposées pour résoudre le problème de traduction d'images, notamment des méthodes utilisant des images appariées [2, 3, 4, 5] et des méthodes utilisant des images non appariées [6,7,8,9]. Certains travaux se concentrent sur certaines tâches spécifiques de traduction d'images (telles que la synthèse sémantique d'images [2, 3, 5], le transfert de style, etc. [9, 10, 11, 12]) et ont obtenu des résultats impressionnants. Cependant, la plupart des traductions d'images ci-dessus se concentrent principalement sur la transformation globale d'une image en image et manquent d'attention aux zones locales, ce qui limite leurs performances dans les tâches d'embellissement de la peau.
Bénéficiant du développement de réseaux neuronaux convolutifs profonds, les méthodes basées sur l'apprentissage [13,14,15,16] ont montré d'excellents résultats dans le domaine de la retouche photo ces derniers temps. années. Cependant, comme la plupart des méthodes de traduction d’images, les algorithmes de retouche existants se concentrent principalement sur la manipulation de certaines propriétés globales de l’image, telles que la couleur, l’éclairage, l’exposition, etc. Peu d'attention est accordée à la retouche des zones locales, et la retouche cutanée est exactement une tâche de retouche locale (Local Photo Retouching), qui nécessite de retoucher la zone cible tout en gardant la zone d'arrière-plan inchangée.
L'algorithme d'inpainting d'image est souvent utilisé pour compléter les parties manquantes de l'image et présente une grande similitude avec la tâche d'embellissement de la peau. Grâce à de puissantes capacités d'apprentissage de fonctionnalités, les méthodes basées sur des réseaux génératifs profonds [17, 18, 19, 20] ont fait de grands progrès dans les tâches d'inpainting ces dernières années. Cependant, les méthodes d'inpainting s'appuient sur le masque de la zone cible comme entrée, et dans l'embellissement de la peau et d'autres tâches de modification locale, obtenir un masque de zone cible précis est en soi une tâche très difficile. Par conséquent, la plupart des tâches d’inpainting d’images ne peuvent pas être directement utilisées pour l’embellissement de la peau. Ces dernières années, certaines méthodes d’inpainting d’images aveugles [21, 22, 23] se sont débarrassées de leur dépendance aux masques et ont permis une détection et une complétion automatiques des zones cibles. Néanmoins, comme la plupart des autres méthodes d'inpainting d'images, ces méthodes souffrent de deux problèmes : a) le manque d'utilisation complète de la texture et des informations sémantiques de la zone cible, et b) une grande complexité de calcul, ce qui rend difficile leur application à l'ultra haute résolution. images.
Afin de réaliser l'édition d'images haute résolution, des méthodes telles que [15, 24, 25, 26] transfèrent la charge de travail de calcul principale de la haute résolution images de résolution en images basse résolution pour réduire la charge d’espace et de temps. Malgré d’excellentes performances en termes d’efficacité, la plupart de ces méthodes ne sont pas adaptées aux tâches de modification locale telles que l’embellissement de la peau en raison du manque d’attention portée aux zones locales. En résumé, la plupart des méthodes d’apprentissage profond existantes sont difficiles à appliquer directement aux tâches d’embellissement de la peau. La raison principale est qu’elles ne prêtent pas suffisamment d’attention aux zones locales ou nécessitent de grandes quantités de calculs et sont difficiles à appliquer aux images haute résolution.
L'essence de la beauté de la peau réside dans l'édition d'images Contrairement à la plupart des autres tâches de conversion d'images, cette édition est locale. Des tâches similaires incluent l’élimination des rides sur les vêtements et la modification des produits. Ce type de tâche de retouche locale d'images présente de forts points communs. Nous résumons ses trois principales difficultés et défis : 1) Positionnement précis de la zone cible. 2) Génération locale (modification) avec cohérence globale et fidélité des détails. 3) Traitement d’image ultra haute résolution. À cette fin, nous proposons un cadre de retouche locale basé sur Adaptive Blend Pyramid (ABPN : Adaptive Blend Pyramid Network for Real-Time Local Retouching of Ultra High-Resolution Photo, CVPR2022,[27]) pour obtenir une ultra-haute résolution pour un rendu local raffiné. retouche d'images, nous présenterons ci-dessous les détails de sa mise en œuvre.
4.1 Structure globale du réseau
Comme le montre la figure ci-dessus, la structure du réseau se compose principalement de deux parties : la couche de modification locale contextuelle (LRL) et la couche pyramidale de mélange adaptatif (BPL). Le but de LRL est de modifier localement l'image basse résolution sous-échantillonnée et de générer une image résultante de modification basse résolution, en tenant pleinement compte des informations de contexte global et des informations de texture locales. De plus, BPL est utilisé pour améliorer progressivement les résultats basse résolution générés dans LRL vers des résultats haute résolution. Parmi eux, nous avons conçu un module de fusion adaptative (ABM) et son module inverse (R-ABM). En utilisant la couche de fusion intermédiaire Bi, nous pouvons réaliser une conversion adaptative et une expansion vers le haut entre l'image d'origine et l'image résultante, montrant une puissante évolutivité. et des capacités de fidélité des détails. Nous avons mené un grand nombre d'expériences sur les deux ensembles de données de modification du visage et de modification des vêtements, et les résultats montrent que notre méthode est nettement en avance sur les méthodes existantes en termes d'efficacité et d'efficience. Il est à noter que notre modèle réalise l'inférence en temps réel d'images 4K ultra haute résolution sur une seule carte P100. Ensuite, nous introduisons respectivement la perte de formation LRL, BPL et réseau.
4.2 Couche de retouche locale contextuelle
Chez LRL, nous souhaitons résoudre les deux défis mentionnés en 3 : positionnement précis de la zone cible et visibilité globale Génération locale cohérente. Comme le montre la figure 3, LRL se compose d'un encodeur partagé, d'une branche de prédiction de masque (MPB) et d'une branche de modification locale (LRB).
En général, nous utilisons une structure multitâche pour obtenir une prédiction explicite de la zone cible et des conseils de modification locale. Parmi eux, la structure de l'encodeur partagé peut utiliser la formation conjointe des deux branches pour optimiser les fonctionnalités et améliorer les informations sémantiques globales de la branche de modification et la perception locale de la cible. La plupart des méthodes de traduction d'images utilisent la structure traditionnelle d'encodeur-décodeur pour mettre en œuvre directement l'édition locale sans découpler le positionnement de la cible et la génération, limitant ainsi l'effet de génération (la capacité du réseau est en revanche limitée, les structures multibranches sont plus propices). découplage des tâches et bénéfice mutuel. Dans la branche de modification locale LRB, nous avons conçu LAM (Figure 4), qui utilise simultanément le mécanisme d'attention spatiale et le mécanisme d'attention aux caractéristiques pour parvenir à une fusion complète des caractéristiques et à la capture de la sémantique et de la texture de la zone cible. L’expérience d’ablation (Figure 6) démontre l’efficacité de chaque conception de module.
4.3 Couche pyramidale de mélange adaptatif
LRL implémente une modification locale à basse résolution, comment étendre le résultat de la modification à haute résolution tout en améliorant sa fidélité aux détails ? C’est le problème que nous souhaitons résoudre dans cette partie.
Dans le domaine de l'édition d'images, les calques de fusion sont souvent utilisés pour se mélanger avec des images (couche de base) dans différents modes pour réaliser une variété de tâches d'édition d'images, telles que opérations de rehaussement de contraste, d'approfondissement et d'éclaircissement, etc. Généralement, étant donné une image et un calque mélangé , nous pouvons mélanger les deux calques pour obtenir le résultat de l'édition d'image , comme suit :
où f est un mappage de pixels fixe étape par étape fonction, généralement déterminée par le mode de fusion. Limité par la capacité de conversion, un mode de fusion spécifique et une fonction fixe f sont difficiles à appliquer directement à une variété de tâches d'édition. Afin de mieux nous adapter à la répartition des données et aux modes de conversion des différentes tâches, nous nous sommes inspirés du mode lumière douce couramment utilisé en retouche d'images et avons conçu un module de fusion adaptative (ABM), comme suit :
représente le produit Hadmard, et sont des paramètres apprenables, partagés par tous les modules ABM du réseau et les modules R-ABM suivants, représente toutes les constantes d'une valeur de 1 matrice.
, afin d'obtenir la couche mélangée B, nous résolvons la formule 3 et construisons un module de mélange adaptatif inverse (R-ABM), comme suit :
En général, en utilisant la couche de fusion comme support intermédiaire, le module ABM et le module R-ABM réalisent la conversion adaptative entre l'image I et le résultat R, par rapport à l'extension directe des résultats basse résolution. en utilisant le suréchantillonnage par convolution et d'autres opérations (telles que Pix2PixHD), nous utilisons des calques de fusion pour atteindre cet objectif, ce qui présente deux avantages : 1) Dans les tâches de modification locale, le calque enregistre principalement les informations de transformation locales entre deux images, ce qui signifie qu'il contient moins informations non pertinentes et est plus facile à optimiser par un réseau léger. 2) Le calque de fusion agit directement sur l'image originale pour obtenir la modification finale, en utilisant pleinement les informations contenues dans l'image elle-même pour obtenir un haut degré de fidélité des détails.
En fait, il existe de nombreuses fonctions ou stratégies alternatives pour le module hybride adaptatif. Nous avons présenté en détail la motivation de conception et la comparaison d'autres solutions dans le document, et nous ne développerons pas davantage ici, Figure 7. montre la comparaison d’ablation entre notre méthode et d’autres méthodes hybrides.
4.3.3 Module de raffinage
4.4 Fonction de perte
5. 1 Comparaison de la méthode SOTA
5.2 Ablation expérience
5.3 Vitesse de course et consommation de mémoire
Affichage de l'effet de beauté de la peau :
Image originale d'Unsplash [31]
L'image originale provient de l'ensemble de données de visage FFHQ [32]
On peut constater que par rapport à l'algorithme de beauté traditionnel, le cadre de retouche locale que nous avons proposé conserve pleinement la texture et la texture de la peau tout en éliminant les défauts cutanés, permettant ainsi une optimisation fine et intelligente de la peau. De plus, nous avons étendu cette méthode au domaine de l'élimination des rides des vêtements et avons obtenu de bons résultats, comme suit :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!