Ces dernières années, de nombreuses avancées surprenantes ont été réalisées dans le domaine des images générées par texte, et de nombreux modèles sont capables de créer des images diversifiées et de haute qualité basées sur des instructions textuelles. Bien que les images générées soient déjà très réalistes, les modèles actuels sont généralement efficaces pour générer des images physiques telles que des paysages et des objets, mais ont du mal à générer des images avec des détails très cohérents, comme des images avec des textes de glyphes complexes tels que des caractères chinois
Pour résoudre ce problème problème, de Des chercheurs d'OPPO et d'autres institutions ont proposé un cadre d'apprentissage universel appelé GlyphDraw. L'objectif de ce cadre est de permettre aux modèles de générer des images intégrées à un texte cohérent. Ce travail est le premier à résoudre le problème de la génération de caractères chinois dans le domaine de la synthèse d'images
Veuillez cliquer sur le lien suivant pour consulter l'article : https://arxiv.org/abs/2303.17870
Lien de la page d'accueil du projet : https ://1073521013.github.io/glyph-draw.github.io/
Jetons d'abord un coup d'œil à l'effet de génération, comme la génération de slogans d'avertissement pour le hall d'exposition :
Création de panneaux d'affichage :
Ajoutez de brèves descriptions de texte aux images et diversifiez également les styles de texte
Un autre exemple intéressant et pratique consiste à générer des émoticônes :
Bien que les résultats présentent quelques défauts, dans l'ensemble , la recherche a généré d’excellents résultats. Les principales contributions de cette recherche incluent :
Cette recherche propose un framework de génération d'images de caractères chinois appelé GlyphDraw. Pendant tout le processus de génération, en utilisant des informations auxiliaires telles que les glyphes et les positions des caractères chinois, le cadre est capable de fournir des conseils précis, de sorte que les images de caractères chinois générées puissent être intégrées de manière transparente dans l'image avec une haute qualité
Ceci L'étude propose une stratégie de formation efficace qui maintient avec succès les fortes performances du modèle dans la génération de domaines ouverts en limitant le nombre de paramètres pouvant être entraînés dans le modèle pré-entraîné afin d'éviter le surajustement et l'oubli catastrophique, et peut générer avec précision des images de caractères chinois
Cette étude détaille le processus de création d'un ensemble de données de formation et propose une nouvelle méthode de base pour évaluer la qualité de la génération d'images de caractères chinois. Parmi eux, la précision de génération de GlyphDraw a atteint 75 %, ce qui est nettement meilleur que la méthode de synthèse d'image précédente. . Ensuite, en utilisant l'algorithme open source de synthèse d'images Stable Diffusion, un cadre d'apprentissage général GlyphDraw est proposé, comme le montre la figure 2. L'objectif global de formation de diffusion stable peut être exprimé comme la formule suivante :
GlyphDraw est basé sur Stable Le mécanisme d’attention croisée dans Diffusion. Il met en cascade le vecteur latent z_t de l'entrée d'origine avec le vecteur latent z_t de l'image, le masque de texte l_m et l'image glyphe l_g
De plus, en utilisant un module de fusion spécifique au domaine, la condition C est équipée de glyphes et fonction de texte. L'introduction du masque de texte et des informations sur les glyphes permet à l'ensemble du processus de formation d'obtenir un contrôle de diffusion précis, ce qui est un élément clé pour améliorer les performances du modèle et, à terme, pouvoir générer des images avec du texte en caractères chinois Plus précisément, la représentation en pixels des informations textuelles , en particulier dans les formes de texte complexes, telles que les caractères pictographiques chinois, il existe des différences évidentes par rapport aux objets naturels. Par exemple, le mot chinois « ciel » est composé de plusieurs traits dans une structure bidimensionnelle, et l'image naturelle correspondante est « ciel bleu parsemé de nuages blancs ». En revanche, les caractères chinois sont très fins et même de petits mouvements ou déformations peuvent entraîner un rendu incorrect du texte, rendant la génération d'images impossible
L'intégration de caractères dans des arrière-plans d'images naturels nécessite également de prendre en compte un problème clé, à savoir contrôler avec précision la génération des pixels du texte sans affecter les pixels naturels adjacents de l'image. Afin d'afficher des caractères chinois parfaits sur des images naturelles, l'auteur a conçu deux composants clés, à savoir le contrôle de position et le contrôle des glyphes, qui sont intégrés dans le modèle de synthèse de diffusion
Contrairement à l'entrée conditionnelle globale d'autres modèles, la génération de caractères nécessite davantage de concentration. zones locales spécifiques de l'image car la distribution des caractéristiques sous-jacentes des pixels de caractères est très différente de celle des pixels naturels de l'image. Afin d'éviter l'effondrement de l'apprentissage du modèle, cette étude propose de manière innovante un contrôle de zone de position à granularité fine pour découpler la répartition entre les différentes zones.
Contenu réécrit : en plus du contrôle de position, un autre problème important est la synthèse des traits de caractères chinois. Obtenez un contrôle précis . Compte tenu de la complexité et de la diversité des caractères chinois, il est très difficile d’apprendre simplement à partir d’un vaste ensemble de données image-texte sans aucune connaissance préalable explicite. Afin de générer avec précision des caractères chinois, cette étude a introduit des images de glyphes explicites comme informations conditionnelles supplémentaires dans le processus de diffusion du modèle
Afin de conserver la signification originale inchangée, le contenu doit être réécrit en chinois. voici le contenu réécrit : Conception de la recherche et résultats expérimentaux
Étant donné qu'il n'existe aucun ensemble de données précédent spécifiquement pour la génération d'images de caractères chinois, cette étude a d'abord créé un ensemble de données de référence ChineseDrawText pour une évaluation qualitative et quantitative. Par la suite, les chercheurs ont testé la précision de génération de plusieurs méthodes sur ChineseDrawText et l'ont évaluée via le modèle de reconnaissance OCR
Le modèle GlyphDraw proposé dans cette étude a atteint une précision moyenne en utilisant pleinement les informations auxiliaires sur les glyphes et la position. L'excellent effet de 75% prouve l'excellente capacité du modèle à générer des images de personnages. La figure ci-dessous montre les résultats de la comparaison visuelle de plusieurs méthodes
De plus, GlyphDraw peut également maintenir les performances de synthèse d'images en domaine ouvert en limitant les paramètres d'entraînement. Sur MS-COCO FID-10k, le FID de la synthèse d'images générale n'est supprimé que par. 2.3
Les lecteurs intéressés peuvent lire le texte original de l'article pour en savoir plus sur la recherche.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!