Ne soyez pas un peintre analphabète ! Google a modifié comme par magie le 'Text Encoder' : une petite opération permet au modèle de génération d'images d'apprendre 'l'orthographe'-IA-php.cn

Table des matières

WikiSpell Benchmark

Expérience de génération de texte

DrawText Benchmark

Expérience de génération d'images

Maison

Périphériques technologiques

Ne soyez pas un peintre analphabète ! Google a modifié comme par magie le 'Text Encoder' : une petite opération permet au modèle de génération d'images d'apprendre 'l'orthographe'

王林

Apr 14, 2023 pm 03:16 PM

谷歌

Au cours de la dernière année, avec la sortie de DALL-E 2, Stable Diffusion et d'autres modèles de génération d'images, les images générées par le modèle texte-image ont été considérablement améliorées en termes de résolution, de qualité, de fidélité du texte, etc. , ce qui a grandement favorisé le développement de scénarios d'application en aval, et tout le monde est devenu un peintre d'IA.

Cependant, des recherches pertinentes montrent que la technologie actuelle des modèles génératifs présente encore un défaut majeur : il n'existe aucun moyen de présenter un texte visuel fiable dans les images.

Les résultats de la recherche montrent que DALL-E 2 est très instable dans la génération de caractères de texte cohérents dans les images, et le nouveau modèle de diffusion stable répertorie directement « incapable de rendre un texte lisible » comme limite connue.

Ne soyez pas un peintre analphabète ! Google a modifié comme par magie le Text Encoder : une petite opération permet au modèle de génération dimages dapprendre lorthographe

Mauvaises orthographes des caractères : (1) Californie : Tous les rêves sont les bienvenus, (2) Canada : Pour des cœurs brillants, (3) Colorado : C'est notre nature, (4) Saint-Louis : Tout à portée de main .

Récemment, Google Research a publié un nouvel article qui tente de comprendre et d'améliorer la capacité des modèles de génération d'images à restituer un texte visuel de haute qualité. Les chercheurs estiment que la principale raison des défauts de rendu du texte dans les modèles génératifs texte-image actuels est le manque de fonctionnalités de saisie au niveau des caractères.

Afin de quantifier l'impact de cette fonctionnalité de saisie dans la génération de modèles, l'article a conçu une série d'expériences contrôlées pour comparer les encodeurs de texte (conscients des caractères et aveugles aux caractères) avec ou sans fonctionnalités de saisie de texte. Ne soyez pas un peintre analphabète ! Google a modifié comme par magie le Text Encoder : une petite opération permet au modèle de génération dimages dapprendre lorthographe

Les chercheurs ont découvert que dans le domaine du texte brut, le modèle sensible aux caractères permettait d'obtenir d'importants gains de performances sur une nouvelle tâche d'orthographe (WikiSpell).

Après avoir transféré cette expérience au domaine visuel, les chercheurs ont formé un ensemble de modèles de génération d'images. Les résultats expérimentaux montrent que le modèle sensible aux caractères surpasse les caractères aveugles dans une série de nouvelles tâches de rendu de texte (benchmark DrawText).

Et le modèle sensible aux caractères atteint un état de l'art plus élevé en orthographe visuelle, sa précision sur les mots peu courants est toujours de plus de 30 % supérieure à celle des modèles concurrents malgré un entraînement sur un nombre beaucoup plus petit d'exemples en points de pourcentage.

Modèle sensible aux caractères

Les modèles de langage peuvent être divisés en modèles sensibles aux caractères qui ont un accès direct aux caractères qui composent leur saisie de texte et en modèles aveugles aux caractères qui n'ont pas d'accès.

De nombreux premiers modèles de langage neuronal fonctionnaient directement sur les caractères sans utiliser de jetons multi-caractères comme marqueurs.

Les modèles ultérieurs sont progressivement passés à la tokenisation basée sur le vocabulaire, certains modèles tels que ELMo conservant toujours la sensibilité aux personnages, mais d'autres modèles tels que BERT abandonnant les fonctionnalités des personnages au profit d'une pré-formation plus efficace.

Actuellement, les modèles de langage les plus largement utilisés sont aveugles aux caractères, s'appuyant sur des algorithmes de segmentation de sous-mots basés sur des données tels que le Byte Pair Encoding (BPE) pour générer des sous-mots en tant que vocabulaire.

Bien que ces méthodes puissent recourir à une représentation au niveau des caractères pour des séquences peu courantes, elles sont toujours conçues pour compresser des séquences de caractères courantes en unités indivisibles.

L'objectif principal de cet article est d'essayer de comprendre et d'améliorer la capacité des modèles de génération d'images à restituer un texte visuel de haute qualité.

À cette fin, les chercheurs ont d'abord étudié les capacités orthographiques des encodeurs de texte actuels de manière isolée. À partir des résultats expérimentaux, on peut constater que, bien que les encodeurs de texte aveugles aux caractères soient populaires, ils ne reçoivent pas d'informations sur les caractères. leur saisie constitue un signal direct, ce qui entraîne des capacités orthographiques limitées.

Ne soyez pas un peintre analphabète ! Google a modifié comme par magie le Text Encoder : une petite opération permet au modèle de génération dimages dapprendre lorthographe

Les chercheurs ont également testé les capacités orthographiques d'encodeurs de texte de différentes tailles, architectures, représentations d'entrée, langues et méthodes de réglage.

Cet article enregistre pour la première fois la capacité miraculeuse du modèle aveugle aux caractères à induire de solides connaissances orthographiques (précision > 99 %) grâce à une pré-formation en réseau, mais les résultats expérimentaux montrent que cette capacité n'est pas disponible dans les langues autre que l'anglais, il ne se généralise pas bien et n'est réalisable qu'à des échelles dépassant les paramètres 100B, il n'est donc pas réalisable pour la plupart des scénarios d'application.

D'un autre côté, les encodeurs de texte sensibles aux caractères permettent de puissantes capacités d'orthographe à des échelles plus petites.

En appliquant ces résultats à des scénarios de génération d'images, les chercheurs ont formé une série de modèles de conversion texte-image sensibles aux caractères et ont démontré qu'ils surpassaient considérablement les caractères dans les évaluations du modèle de rendu de texte existant et nouveau.

Mais pour les modèles au niveau des caractères purs, bien que les performances du rendu du texte se soient améliorées, pour les invites qui n'impliquent pas de texte visuel, l'alignement image-texte diminuera.

Pour atténuer ce problème, les chercheurs suggèrent de combiner les représentations d'entrée au niveau des caractères et au niveau des jetons afin d'obtenir les meilleures performances.

WikiSpell Benchmark

Étant donné que les modèles génératifs texte-image s'appuient sur des encodeurs de texte pour produire des représentations à décoder, les chercheurs ont d'abord créé le benchmark WikiSpell en échantillonnant quelques mots du Wiktionnaire, puis en se basant sur cet ensemble de données sur un A pur. tâche d'évaluation de l'orthographe du texte pour explorer les capacités des encodeurs de texte.

Ne soyez pas un peintre analphabète ! Google a modifié comme par magie le Text Encoder : une petite opération permet au modèle de génération dimages dapprendre lorthographe

Pour chaque exemple dans WikiSpell, l'entrée du modèle est un mot et la sortie attendue est son orthographe spécifique (générée en insérant des espaces entre chaque caractère Unicode).

Ne soyez pas un peintre analphabète ! Google a modifié comme par magie le Text Encoder : une petite opération permet au modèle de génération dimages dapprendre lorthographe

L'article ne s'intéressant qu'à l'étude de la relation entre la fréquence d'un mot et la capacité orthographique du modèle, les chercheurs ont divisé les mots du Wiktionnaire en cinq selon la fréquence du mot apparaissant dans le corpus mC4 Catégories sans chevauchement : 1 % des mots les plus fréquents, 1 à 10 % des mots les plus fréquents, 10 à 20 % des mots, 20 à 30 % des mots et 50 % des mots les plus faibles (inclus dans le corpus mC4). mots du corpus qui n'apparaissent jamais dans ).

Ensuite, échantillonnez 1 000 mots uniformément dans chaque compartiment pour créer un ensemble de test (et un ensemble de développement similaire).

Enfin, un ensemble d'entraînement de 10 000 mots a été construit en combinant deux parties : 5 000 uniformément échantillonnés dans le seau inférieur de 50 % (les mots les moins courants), et les 5 000 autres en fonction de leur présence dans mC4. Les fréquences sont échantillonnées proportionnellement (ainsi en orientant cette moitié de la formation vers les mots fréquents).

Les chercheurs excluent tous les mots sélectionnés dans l'ensemble de développement ou l'ensemble de test de l'ensemble de formation, de sorte que les résultats de l'évaluation concernent toujours les mots exclus.

En plus de l'anglais, les chercheurs ont également évalué six autres langues (arabe, chinois, finnois, coréen, russe, thaï), choisies pour couvrir diverses fonctionnalités qui affectent la capacité du modèle à apprendre l'orthographe du processus de construction de l'ensemble de données. décrit ci-dessus a été répété pour chaque évaluation linguistique.

Expérience de génération de texte

Les chercheurs ont utilisé le benchmark WikiSpell pour évaluer les performances de plusieurs modèles de texte uniquement pré-entraînés à différentes échelles, notamment T5 (un modèle de codec aveugle aux caractères pré-entraîné sur des données anglaises) ; similaire à T5, mais pré-entraîné sur plus de 100 langues) ; ByT5 (une version sensible aux caractères de mT5 qui fonctionne directement sur les séquences d'octets UTF-8) ; et PaLM (un modèle de décodage plus grand, principalement pré-entraîné en anglais).

Ne soyez pas un peintre analphabète ! Google a modifié comme par magie le Text Encoder : une petite opération permet au modèle de génération dimages dapprendre lorthographe

Dans les résultats expérimentaux de l'anglais pur et du multilingue, on peut constater que les performances des modèles aveugles aux caractères T5 et mT5 sont bien pires sur les seaux contenant les 1 % de mots les plus fréquents.

Ce résultat peut sembler contre-intuitif, car les modèles fonctionnent généralement mieux sur des exemples qui apparaissent fréquemment dans les données, mais en raison de la façon dont les vocabulaires de sous-mots sont formés, les mots fréquents sont généralement représentés comme un seul jeton atomique (ou A petit nombre de jetons), et c'est effectivement vrai : 87 % des mots dans la tranche supérieure de 1 % de l'anglais sont représentés par le vocabulaire de T5 en tant que jeton de sous-mot.

Ainsi, un faible score de précision orthographique indique que l'encodeur de T5 ne conserve pas suffisamment d'informations orthographiques sur les sous-mots de son vocabulaire.

Deuxièmement, pour les modèles aveugles aux caractères, l'échelle est un facteur important affectant la capacité d'orthographe. T5 et mT5 s'améliorent progressivement à mesure que l'échelle augmente, mais même à l'échelle XXL, ces modèles ne montrent pas de capacités orthographiques particulièrement fortes.

Ce n'est que lorsque les modèles aveugles aux caractères atteignent l'échelle de PaLM que vous commencez à voir des capacités orthographiques presque parfaites : le modèle PaLM avec paramètre 540B atteint une précision >99 % dans toutes les catégories de fréquence de l'anglais, même si je ne vois que 20 exemples. dans l'invite (alors que le T5 affiche 1000 exemples affinés).

Ne soyez pas un peintre analphabète ! Google a modifié comme par magie le Text Encoder : une petite opération permet au modèle de génération dimages dapprendre lorthographe

Cependant, PaLM fonctionne moins bien sur d'autres langages, probablement en raison de beaucoup moins de données de pré-formation pour ces langages.

Les expériences sur ByT5 montrent que le modèle sensible aux caractères présente des capacités orthographiques plus puissantes. Les performances de ByT5 dans les tailles de base et grandes n'étaient que légèrement en retard par rapport aux XL et XXL (bien que toujours au moins dans la plage de 90 %), et la fréquence d'un mot ne semblait pas avoir beaucoup d'impact sur les capacités orthographiques de ByT5.

Les performances orthographiques de ByT5 dépassent de loin les résultats de (m)T5, sont même comparables aux performances en anglais de PaLM avec 100 fois plus de paramètres et dépassent les performances de PaLM dans d'autres langues.

On peut voir que l'encodeur ByT5 conserve des informations considérables au niveau des caractères, et ces informations peuvent être récupérées à partir de ces paramètres gelés en fonction des besoins de la tâche de décodage.

DrawText Benchmark

De l'ensemble de données COCO publié en 2014 au benchmark DrawBench en 2022, du FID, des scores CLIP aux préférences humaines et à d'autres indicateurs, la façon d'évaluer les modèles texte-image a été un sujet de recherche important.

Mais il y a eu un manque de travail connexe en matière de rendu de texte et d'évaluation orthographique.

À cette fin, les chercheurs proposent un nouveau benchmark, DrawText, qui vise à mesurer de manière globale la qualité de rendu du texte des modèles texte-image. Le benchmark

DrawText se compose de deux parties, mesurant différentes dimensions des capacités du modèle :

1) DrawText Spell, évalué par des rendus de mots ordinaires sur une large collection de mots anglais

Les chercheurs ont commencé ; En prenant 100 mots chacun dans les catégories de fréquences WikiSpell en anglais et en les insérant dans un modèle standard, un total de 500 invites ont été construites.

Pour chaque invite, 4 images sont extraites des modèles candidats et évaluées à l'aide d'évaluations humaines et de métriques basées sur la reconnaissance optique de caractères (OCR).

2) DrawText Creative, évalué à travers le rendu du texte des effets visuels.

Le texte visuel ne se limite pas aux scènes courantes comme les panneaux de signalisation, le texte peut apparaître sous de nombreuses formes, telles que le gribouillage, la peinture, la sculpture, etc.

Si les modèles de génération d'images prennent en charge un rendu de texte flexible et précis, cela permettra aux concepteurs d'utiliser ces modèles pour développer des polices créatives, des logos, des mises en page, etc.

Pour tester la capacité du modèle de génération d'images à prendre en charge ces cas d'utilisation, les chercheurs ont travaillé avec un graphiste professionnel pour créer 175 invites différentes nécessitant le rendu du texte dans une gamme de styles et de paramètres créatifs.

Ne soyez pas un peintre analphabète ! Google a modifié comme par magie le Text Encoder : une petite opération permet au modèle de génération dimages dapprendre lorthographe

De nombreux indices dépassent les capacités des modèles actuels, avec des modèles de pointe présentant des mots mal orthographiés, supprimés ou répétés.

Expérience de génération d'images

Les résultats expérimentaux montrent que parmi les 9 modèles de génération d'images utilisés pour la comparaison en termes de précision sur le benchmark DrawText Spell, les modèles sensibles aux caractères (ByT5 et Concat) sont meilleurs que les autres indépendamment de taille du modèle, en particulier sur les mots peu courants.

Ne soyez pas un peintre analphabète ! Google a modifié comme par magie le Text Encoder : une petite opération permet au modèle de génération dimages dapprendre lorthographe

Imagen-AR montre l'avantage d'éviter le recadrage, et malgré un temps de formation 6,6 fois plus long, il fonctionne toujours moins bien que le modèle sensible aux caractères.

Une autre différence évidente entre les modèles est qu'ils orthographent systématiquement mal un mot donné dans plusieurs échantillons.

Ne soyez pas un peintre analphabète ! Google a modifié comme par magie le Text Encoder : une petite opération permet au modèle de génération dimages dapprendre lorthographe

Les résultats expérimentaux montrent que quel que soit le nombre d'échantillons prélevés, le modèle T5 comporte de nombreux mots mal orthographiés, ce qui, selon les chercheurs, indique un manque de connaissance des caractères dans l'encodeur de texte.

En revanche, le modèle ByT5 ne comporte fondamentalement que des erreurs sporadiques.

Ne soyez pas un peintre analphabète ! Google a modifié comme par magie le Text Encoder : une petite opération permet au modèle de génération dimages dapprendre lorthographe

Cette observation peut être quantifiée en mesurant le taux auquel le modèle est systématiquement correct (4/4) ou systématiquement incorrect (0/4) sur les quatre échantillons d'images.

Ne soyez pas un peintre analphabète ! Google a modifié comme par magie le Text Encoder : une petite opération permet au modèle de génération dimages dapprendre lorthographe

Un contraste net peut être observé, en particulier sur les mots courants (1 % des mots supérieurs), c'est-à-dire que le modèle ByT5 ne se trompe jamais systématiquement, tandis que le modèle T5 continue de se tromper sur 10 % ou plus des mots. .

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7467

Tutoriel CakePHP

1376

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Comment commenter Deepseek Feb 19, 2025 pm 05:42 PM

Deepseek est un puissant outil de récupération d'informations. .

Comment rechercher Deepseek Feb 19, 2025 pm 05:39 PM

Deepseek est un moteur de recherche propriétaire qui ne recherche que dans une base de données ou un système spécifique, plus rapide et plus précis. Lorsque vous l'utilisez, il est conseillé aux utilisateurs de lire le document, d'essayer différentes stratégies de recherche, de demander de l'aide et des commentaires sur l'expérience utilisateur afin de tirer le meilleur parti de leurs avantages.

Sesame Open Door Exchange Page d'enregistrement de page Enregistrement Gate Trading App The Registration Site Web Feb 28, 2025 am 11:06 AM

Cet article présente le processus d'enregistrement de la version Web de Sesame Open Exchange (GATE.IO) et l'application Gate Trading en détail. Qu'il s'agisse de l'enregistrement Web ou de l'enregistrement de l'application, vous devez visiter le site Web officiel ou l'App Store pour télécharger l'application authentique, puis remplir le nom d'utilisateur, le mot de passe, l'e-mail, le numéro de téléphone mobile et d'autres informations et terminer la vérification des e-mails ou du téléphone mobile.

Pourquoi le lien d'échange de Bybit ne peut-il pas être téléchargé directement et installé? Feb 21, 2025 pm 10:57 PM

Pourquoi le lien d'échange de Bybit ne peut-il pas être téléchargé directement et installé? Bybit est un échange de crypto-monnaie qui fournit des services de trading aux utilisateurs. Les applications mobiles de l'échange ne peuvent pas être téléchargées directement via AppStore ou GooglePlay pour les raisons suivantes: 1. La politique de l'App Store empêche Apple et Google d'avoir des exigences strictes sur les types d'applications autorisées dans l'App Store. Les demandes d'échange de crypto-monnaie ne répondent souvent pas à ces exigences car elles impliquent des services financiers et nécessitent des réglementations et des normes de sécurité spécifiques. 2. Conformité des lois et réglementations Dans de nombreux pays, les activités liées aux transactions de crypto-monnaie sont réglementées ou restreintes. Pour se conformer à ces réglementations, l'application ByBit ne peut être utilisée que via des sites Web officiels ou d'autres canaux autorisés

Sesame Open Door Trading Platform Download Version mobile Gateio Trading Plateforme de téléchargement Adresse de téléchargement Feb 28, 2025 am 10:51 AM

Il est crucial de choisir un canal formel pour télécharger l'application et d'assurer la sécurité de votre compte.

Top 10 recommandé pour l'application de trading d'actifs numériques crypto (2025 Global Ranking) Mar 18, 2025 pm 12:15 PM

Cet article recommande les dix principales plates-formes de trading de crypto-monnaie qui méritent d'être prêtées, notamment Binance, Okx, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, Bydfi et Xbit décentralisées. Ces plateformes ont leurs propres avantages en termes de quantité de devises de transaction, de type de transaction, de sécurité, de conformité et de fonctionnalités spéciales. Le choix d'une plate-forme appropriée nécessite une considération complète en fonction de votre propre expérience de trading, de votre tolérance au risque et de vos préférences d'investissement. J'espère que cet article vous aide à trouver le meilleur costume pour vous-même

Binance Binance Site officiel Dernière version Portail de connexion Feb 21, 2025 pm 05:42 PM

Pour accéder à la dernière version du portail de connexion du site Web de Binance, suivez simplement ces étapes simples. Accédez au site officiel et cliquez sur le bouton "Connectez-vous" dans le coin supérieur droit. Sélectionnez votre méthode de connexion existante. Entrez votre numéro de mobile ou votre mot de passe enregistré et votre mot de passe et complétez l'authentification (telles que le code de vérification mobile ou Google Authenticator). Après une vérification réussie, vous pouvez accéder à la dernière version du portail de connexion du site Web officiel de Binance.

Sesame Open Door Exchange Page Web Login Dernière version GATEIO Entrée du site officiel Mar 04, 2025 pm 11:48 PM

Une introduction détaillée à l'opération de connexion de la version Web Sesame Open Exchange, y compris les étapes de connexion et le processus de récupération de mot de passe.

See all articles