Maison > Périphériques technologiques > IA > Le GAN ​​traditionnel peut être interprété après modification, et l'interprétabilité du noyau de convolution et l'authenticité des images générées sont garanties.

Le GAN ​​traditionnel peut être interprété après modification, et l'interprétabilité du noyau de convolution et l'authenticité des images générées sont garanties.

王林
Libérer: 2023-04-08 14:21:10
avant
1218 Les gens l'ont consulté

Le GAN ​​traditionnel peut être interprété après modification, et linterprétabilité du noyau de convolution et lauthenticité des images générées sont garanties.

  • Adresse de l'article : https://www.aaai.org/AAAI22Papers/AAAI-7931.LiC.pdf
  • Affiliations des auteurs : Institute of Computing Technology, Chinese Academy of Sciences, Shanghai Jiao Tong University, Laboratoire Zhijiang

Contexte de recherche et tâches de recherche

Les réseaux adverses génératifs (GAN) ont obtenu un grand succès dans la génération d'images haute résolution, et la recherche sur leur interprétabilité a également attiré une large attention ces dernières années.

Dans ce domaine, comment faire apprendre au GAN une représentation découplée reste un défi majeur. La représentation dite découplée du GAN signifie que chaque partie de la représentation n'affecte que des aspects spécifiques de l'image générée. Des recherches antérieures sur la représentation découplée des GAN se sont concentrées sur différentes perspectives.

Par exemple, dans la figure 1 ci-dessous, la méthode 1 dissocie la structure et le style de l'image. La méthode 2 apprend les caractéristiques des objets locaux dans l'image. La méthode 3 apprend les caractéristiques découplées des attributs dans les images, telles que les attributs d'âge et les attributs de genre des images de visage. Cependant, ces études n’ont pas réussi à fournir une représentation claire et symbolique dans les GAN pour différents concepts visuels (tels que les parties du visage telles que les yeux, le nez et la bouche).

Le GAN ​​traditionnel peut être interprété après modification, et linterprétabilité du noyau de convolution et lauthenticité des images générées sont garanties.

Figure 1 : Comparaison visuelle avec d'autres méthodes de caractérisation découplée du GAN

À cette fin, les chercheurs ont proposé une modifier le GAN traditionnel en une méthode générale GAN interprétable , qui garantit que les noyaux de convolution dans la couche intermédiaire du générateur peuvent apprendre des concepts visuels locaux découplés. Plus précisément, comme le montre la figure 2 ci-dessous, par rapport au GAN traditionnel, chaque noyau de convolution dans la couche intermédiaire du GAN interprétable représente toujours un concept visuel spécifique lors de la génération de différentes images, et différents noyaux de convolution représentent des visions différentes.

Le GAN ​​traditionnel peut être interprété après modification, et linterprétabilité du noyau de convolution et lauthenticité des images générées sont garanties.

Figure 2 : Comparaison visuelle du GAN interprétable et de la représentation d'encodage du GAN traditionnelle

Méthode de modélisation

L'apprentissage du GAN interprétable doit répondre aux deux objectifs suivants : Convolution Le l'interprétabilité du noyau et l'authenticité de l'image générée .

Interprétabilité du noyau de convolution : les chercheurs espèrent que le noyau de convolution dans la couche intermédiaire pourra automatiquement apprendre des concepts visuels significatifs sans annotation manuelle d'aucun concept visuel. Plus précisément, chaque noyau de convolution doit générer de manière stable des régions d'image correspondant au même concept visuel lors de la génération d'images différentes. Différents noyaux de convolution doivent générer des zones d'image correspondant à différents concepts visuels ;
  • Authenticité des images générées : le générateur GAN interprétable peut toujours générer des images réalistes.
  • Afin de garantir l'interprétabilité des noyaux de convolution dans la couche cible, les chercheurs ont remarqué que lorsque plusieurs noyaux de convolution génèrent des régions similaires correspondant à un certain concept visuel, ils représentent généralement conjointement ce concept visuel.

Par conséquent, ils utilisent un ensemble de noyaux de convolution pour représenter conjointement un concept visuel spécifique, et utilisent différents ensembles de noyaux de convolution pour représenter respectivement différents concepts visuels.

Afin de garantir en même temps l'authenticité des images générées, les chercheurs ont conçu la fonction de perte suivante pour modifier le GAN ​​traditionnel en un GAN interprétable.

  • Perte du GAN traditionnel : Cette perte est utilisée pour garantir l'authenticité de l'image générée
  • Perte de partition du noyau de convolution : Étant donné un générateur, cette perte est utilisée pour trouver le volume Les noyaux sont divisés de telle manière que les noyaux de convolution du même groupe génèrent des zones d'image similaires. Plus précisément, ils utilisent un modèle de mélange gaussien (GMM) pour apprendre comment les noyaux de convolution sont divisés afin de garantir que les cartes caractéristiques des noyaux de convolution dans chaque groupe ont des activations neuronales similaires 
  • Perte de réalité du modèle énergétique : Étant donné la façon dont les noyaux de la couche cible sont divisés, forcer chaque noyau du même groupe à générer le même concept visuel peut réduire la qualité de l'image résultante. Afin de garantir davantage l'authenticité des images générées, ils utilisent le modèle énergétique pour générer la probabilité d'authenticité de la carte de caractéristiques dans la couche cible, et utilisent l'estimation du maximum de vraisemblance pour apprendre les paramètres du modèle énergétique
  •  ; Perte d'interprétabilité du noyau de convolution  : étant donné la méthode de division du noyau de convolution de la couche cible, cette perte est utilisée pour améliorer encore l'interprétabilité du noyau de convolution. Plus précisément, cette perte amène chaque noyau de convolution du même groupe à générer de manière unique la même zone d'image, tandis que les noyaux de convolution de différents groupes sont responsables de la génération de différentes zones d'image.

Résultats expérimentaux

Dans l'expérience, les chercheurs ont évalué qualitativement et quantitativement leur GAN interprétable.

Pour l'analyse qualitative, ils ont visualisé la carte des caractéristiques de chaque noyau de convolution pour évaluer la cohérence des concepts visuels représentés par le noyau de convolution sur différentes images. Comme le montre la figure 3 ci-dessous, dans le GAN interprétable, chaque noyau de convolution génère toujours des zones d'image correspondant au même concept visuel lors de la génération d'images différentes, tandis que différents noyaux de convolution génèrent des zones d'image correspondant à différents concepts visuels. Figure 3 : Visualisation des cartes de fonctionnalités dans un GAN interprétable La différence est illustrée dans la figure 4(a) ci-dessous. La figure 4 (b) montre la proportion du nombre de noyaux de convolution correspondant à différents concepts visuels dans le GAN interprétable. La figure 4 (c) montre que lorsque le nombre de groupes de noyaux de convolution sélectionnés pour la division est différent, plus il y a de groupes, plus les concepts visuels appris par le GAN interprétable sont détaillés. Figure 4 : Évaluation qualitative du GAN explicable Par exemple, l'interaction de concepts visuels spécifiques entre des images peut être obtenue en échangeant les cartes de caractéristiques correspondantes dans la couche interprétable, c'est-à-dire que l'échange de visages local/global est terminé.

La figure 5 ci-dessous donne Le GAN ​​traditionnel peut être interprété après modification, et linterprétabilité du noyau de convolution et lauthenticité des images générées sont garanties.les résultats

de l'échange de la bouche, des cheveux et du nez entre des paires d'images. La dernière colonne donne la différence entre l'image modifiée et l'image originale. Ce résultat montre que la méthode des chercheurs a uniquement modifié le concept visuel local sans changer d'autres domaines non pertinents.

Le GAN ​​traditionnel peut être interprété après modification, et linterprétabilité du noyau de convolution et lauthenticité des images générées sont garanties. Figure 5 : Concepts visuels spécifiques d'échange d'images générées

De plus, la figure 6 ci-dessous montre également les performances de leur

méthode lors de l'échange de l'ensemble du visage Effet

.

Figure 6 : Échange de tout le visage de l'image générée

Pour l'analyse quantitative, les chercheurs ont utilisé des expériences de vérification du visage pour évaluer l'exactitude des résultats de l'échange de visage. Plus précisément, étant donné une paire d'images de visage, le visage de l'image originale est remplacé par le visage de l'image source pour générer une image modifiée. Ensuite, testez si le visage dans l'image modifiée et le visage dans l'image source ont la même identité.

Le tableau 1 ci-dessous montre l'exactitude des résultats de vérification du visage de différentes méthodes Leur méthode est meilleure que les autres méthodes d'échange de visage en termes de préservation de l'identité.

Le GAN ​​traditionnel peut être interprété après modification, et linterprétabilité du noyau de convolution et lauthenticité des images générées sont garanties.

Tableau 1 : Évaluation de la précision de l'identité par échange de visage

De plus, la localité de la méthode de modification de concepts visuels spécifiques a également été évaluée dans l'expérience. Plus précisément, les chercheurs ont calculé l'erreur quadratique moyenne (MSE) entre l'image originale et l'image modifiée dans l'espace RVB, et ont utilisé le rapport entre le MSE hors région et le MSE dans la région d'un concept visuel spécifique comme test expérimental. indice pour l'évaluation de la localité.

Les résultats sont présentés dans le tableau 2 ci-dessous. La méthode de modification du chercheur a une meilleure localité, c'est-à-dire qu'il y a moins de changements dans la zone de l'image en dehors du concept visuel modifié.

Le GAN ​​traditionnel peut être interprété après modification, et linterprétabilité du noyau de convolution et lauthenticité des images générées sont garanties.

Tableau 2 : Évaluation de la localité des concepts visuels modifiés

Pour plus de résultats expérimentaux, voir l'article.

Résumé

Ce travail propose une méthode générale qui peut modifier les GAN traditionnels en GAN interprétables sans aucune annotation manuelle des concepts visuels. Dans un GAN interprétable, chaque noyau de convolution de la couche intermédiaire du générateur peut générer de manière stable le même concept visuel lors de la génération d'images différentes.

Les expériences montrent que le GAN interprétable permet également aux utilisateurs de modifier des concepts visuels spécifiques sur les images générées, offrant ainsi une nouvelle perspective sur la méthode d'édition contrôlable des images générées par le GAN.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal