Les modèles de génération de diffusion de texte à image, tels que Stable Diffusion, DALL-E 2 et Mid-Journey, sont dans un état de développement vigoureux et disposent de capacités de génération de texte à image extrêmement puissantes. , mais des cas de « renversement » surviennent occasionnellement.
Comme le montre la figure ci-dessous, lorsqu'on lui donne une invite de texte : "Une photo d'un phacochère", le modèle de diffusion stable peut générer un phacochère correspondant, clair et réaliste photo. Cependant, lorsque nous modifions légèrement cette invite de texte et la remplaçons par : « Une photo d'un phacochère et d'un traître », qu'en est-il du phacochère ? Comment est-elle devenue une voiture ?
Jetons un coup d'œil aux prochains exemples. Ce sont des nouveautés. c'est une espèce ? Quelle est la cause de ces phénomènes étranges ? Ces cas d'échec de génération proviennent tous d'un article récemment publié "Stable Diffusion is Unstable":
Adresse papier : https://arxiv.org/abs/2306.02583# 🎜🎜#
Dans cet article, un algorithme contradictoire basé sur un gradient pour les modèles texte-image est proposé pour la première fois. Cet algorithme peut générer de manière efficace et efficiente un grand nombre d'invites de texte offensantes et peut explorer efficacement l'instabilité du modèle de diffusion stable. Cet algorithme a atteint un taux de réussite d'attaque de 91,1 % sur les invites de texte courtes et de 81,2 % sur les invites de texte longues. De plus, cet algorithme fournit des cas riches pour étudier les modes de défaillance des modèles de génération texte-image, jetant ainsi les bases de la recherche sur la contrôlabilité de la génération d'images. Sur la base du grand nombre de cas d'échec de génération générés par cet algorithme, le chercheur a résumé quatre raisons d'échec de génération, qui sont : # 🎜🎜#
La position du mot dans l'invite
La différence de génération speed
Dans ce chapitre, les chercheurs explorent en profondeur la situation de génération lorsqu'un mot a plusieurs sens. Ce qu’ils ont découvert, c’est que, sans aucune perturbation extérieure, l’image résultante représentait souvent une signification spécifique du mot. Prenons « phacochère » comme exemple. La première ligne de la figure A4 est générée en fonction de la signification du mot « phacochère ».
Cependant, les chercheurs ont également découvert que lorsque d'autres mots sont injectés dans l'invite d'origine, cela peut provoquer des changements sémantiques. Par exemple, lorsque le mot « traître » est introduit dans une invite décrivant « phacochère », le contenu de l'image généré peut s'écarter de la signification originale de « phacochère » et générer un contenu entièrement nouveau.
Dans la figure 10, le chercheur a observé un phénomène intéressant. Bien que d’un point de vue humain, les invites disposées dans des ordres différents ont généralement la même signification et décrivent toutes l’image d’un chat, de sabots et d’un pistolet. Cependant, pour le modèle de langage, c'est-à-dire l'encodeur de texte CLIP, l'ordre des mots affecte dans une certaine mesure la compréhension du texte, ce qui à son tour modifie le contenu des images générées. Ce phénomène montre que même si nos descriptions sont sémantiquement cohérentes, le modèle peut produire des résultats de compréhension et de génération différents en raison de l'ordre différent des mots. Cela révèle non seulement que la manière dont les modèles traitent le langage et comprend la sémantique est différente de celle des humains, mais nous rappelle également que nous devons accorder plus d'attention à l'impact de l'ordre des mots lors de la conception et de l'utilisation de tels modèles.
est illustrée dans la figure 1 ci-dessous, sans changer le nom cible d'origine dans l'invite, le chercheur a ainsi poursuivi le processus discret de remplacement ou d'expansion de mots en apprenant la distribution Gumbel Softmax. assurer la différentiabilité de la génération de perturbations, après avoir généré l'image, utiliser le classificateur CLIP et la perte de marge pour optimiser ω, dans le but de générer des images que CLIP ne peut pas classer correctement Afin de garantir que les invites offensives et les invites propres ont une certaine similitude, recherche. Dans une étape ultérieure, des contraintes de similarité sémantique et des contraintes de fluidité du texte sont utilisées.
Une fois cette distribution apprise, l'algorithme est capable d'échantillonner plusieurs astuces de texte avec des effets d'attaque pour la même astuce de texte propre.
Veuillez consulter l'article original pour plus de détails.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!