Les réseaux adverses génératifs (GAN) ont obtenu un grand succès dans la génération d'images haute résolution, et la recherche sur leur interprétabilité a également attiré une large attention ces dernières années.
Dans ce domaine, comment faire apprendre au GAN une représentation découplée reste un défi majeur. La représentation dite découplée du GAN signifie que chaque partie de la représentation n'affecte que des aspects spécifiques de l'image générée. Des recherches antérieures sur la représentation découplée des GAN se sont concentrées sur différentes perspectives.
Par exemple, dans la figure 1 ci-dessous, la méthode 1 dissocie la structure et le style de l'image. La méthode 2 apprend les caractéristiques des objets locaux dans l'image. La méthode 3 apprend les caractéristiques découplées des attributs dans les images, telles que les attributs d'âge et les attributs de genre des images de visage. Cependant, ces études n’ont pas réussi à fournir une représentation claire et symbolique dans les GAN pour différents concepts visuels (tels que les parties du visage telles que les yeux, le nez et la bouche).
Figure 1 : Comparaison visuelle avec d'autres méthodes de caractérisation découplée du GAN
À cette fin, les chercheurs ont proposé une modifier le GAN traditionnel en une méthode générale GAN interprétable , qui garantit que les noyaux de convolution dans la couche intermédiaire du générateur peuvent apprendre des concepts visuels locaux découplés. Plus précisément, comme le montre la figure 2 ci-dessous, par rapport au GAN traditionnel, chaque noyau de convolution dans la couche intermédiaire du GAN interprétable représente toujours un concept visuel spécifique lors de la génération de différentes images, et différents noyaux de convolution représentent des visions différentes.
Figure 2 : Comparaison visuelle du GAN interprétable et de la représentation d'encodage du GAN traditionnelle
L'apprentissage du GAN interprétable doit répondre aux deux objectifs suivants : Convolution Le l'interprétabilité du noyau et l'authenticité de l'image générée .
Interprétabilité du noyau de convolution : les chercheurs espèrent que le noyau de convolution dans la couche intermédiaire pourra automatiquement apprendre des concepts visuels significatifs sans annotation manuelle d'aucun concept visuel. Plus précisément, chaque noyau de convolution doit générer de manière stable des régions d'image correspondant au même concept visuel lors de la génération d'images différentes. Différents noyaux de convolution doivent générer des zones d'image correspondant à différents concepts visuels ;Par conséquent, ils utilisent un ensemble de noyaux de convolution pour représenter conjointement un concept visuel spécifique, et utilisent différents ensembles de noyaux de convolution pour représenter respectivement différents concepts visuels.
Afin de garantir en même temps l'authenticité des images générées, les chercheurs ont conçu la fonction de perte suivante pour modifier le GAN traditionnel en un GAN interprétable.
Dans l'expérience, les chercheurs ont évalué qualitativement et quantitativement leur GAN interprétable.
Pour l'analyse qualitative, ils ont visualisé la carte des caractéristiques de chaque noyau de convolution pour évaluer la cohérence des concepts visuels représentés par le noyau de convolution sur différentes images. Comme le montre la figure 3 ci-dessous, dans le GAN interprétable, chaque noyau de convolution génère toujours des zones d'image correspondant au même concept visuel lors de la génération d'images différentes, tandis que différents noyaux de convolution génèrent des zones d'image correspondant à différents concepts visuels. Figure 3 : Visualisation des cartes de fonctionnalités dans un GAN interprétable La différence est illustrée dans la figure 4(a) ci-dessous. La figure 4 (b) montre la proportion du nombre de noyaux de convolution correspondant à différents concepts visuels dans le GAN interprétable. La figure 4 (c) montre que lorsque le nombre de groupes de noyaux de convolution sélectionnés pour la division est différent, plus il y a de groupes, plus les concepts visuels appris par le GAN interprétable sont détaillés. Figure 4 : Évaluation qualitative du GAN explicable Par exemple, l'interaction de concepts visuels spécifiques entre des images peut être obtenue en échangeant les cartes de caractéristiques correspondantes dans la couche interprétable, c'est-à-dire que l'échange de visages local/global est terminé.
La figure 5 ci-dessous donne les résultats
de l'échange de la bouche, des cheveux et du nez entre des paires d'images. La dernière colonne donne la différence entre l'image modifiée et l'image originale. Ce résultat montre que la méthode des chercheurs a uniquement modifié le concept visuel local sans changer d'autres domaines non pertinents.
Figure 5 : Concepts visuels spécifiques d'échange d'images générées
De plus, la figure 6 ci-dessous montre également les performances de leur
méthode lors de l'échange de l'ensemble du visage Effet.
Figure 6 : Échange de tout le visage de l'image générée
Pour l'analyse quantitative, les chercheurs ont utilisé des expériences de vérification du visage pour évaluer l'exactitude des résultats de l'échange de visage. Plus précisément, étant donné une paire d'images de visage, le visage de l'image originale est remplacé par le visage de l'image source pour générer une image modifiée. Ensuite, testez si le visage dans l'image modifiée et le visage dans l'image source ont la même identité.
Le tableau 1 ci-dessous montre l'exactitude des résultats de vérification du visage de différentes méthodes Leur méthode est meilleure que les autres méthodes d'échange de visage en termes de préservation de l'identité.
Tableau 1 : Évaluation de la précision de l'identité par échange de visage
De plus, la localité de la méthode de modification de concepts visuels spécifiques a également été évaluée dans l'expérience. Plus précisément, les chercheurs ont calculé l'erreur quadratique moyenne (MSE) entre l'image originale et l'image modifiée dans l'espace RVB, et ont utilisé le rapport entre le MSE hors région et le MSE dans la région d'un concept visuel spécifique comme test expérimental. indice pour l'évaluation de la localité.
Les résultats sont présentés dans le tableau 2 ci-dessous. La méthode de modification du chercheur a une meilleure localité, c'est-à-dire qu'il y a moins de changements dans la zone de l'image en dehors du concept visuel modifié.
Tableau 2 : Évaluation de la localité des concepts visuels modifiés
Pour plus de résultats expérimentaux, voir l'article.
Ce travail propose une méthode générale qui peut modifier les GAN traditionnels en GAN interprétables sans aucune annotation manuelle des concepts visuels. Dans un GAN interprétable, chaque noyau de convolution de la couche intermédiaire du générateur peut générer de manière stable le même concept visuel lors de la génération d'images différentes.
Les expériences montrent que le GAN interprétable permet également aux utilisateurs de modifier des concepts visuels spécifiques sur les images générées, offrant ainsi une nouvelle perspective sur la méthode d'édition contrôlable des images générées par le GAN.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!