Maison > Périphériques technologiques > IA > le corps du texte

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et l'image est produite en 0,13 seconde. Elle prend en charge jusqu'à 16 millions de pixels.

WBOY
Libérer: 2023-04-04 11:50:07
avant
1253 Les gens l'ont consulté

Avec la sortie de DALL-E 2 par OpenAI, les modèles autorégressifs et de diffusion sont devenus du jour au lendemain la nouvelle norme pour les modèles génératifs à grande échelle. Avant cela, les réseaux contradictoires génératifs (GAN) avaient toujours été le choix dominant et les technologies dérivées telles que StyleGAN. .

Derrière la popularité de l'AIGC, d'un point de vue technique, il y a eu un énorme changement dans l'architecture du modèle de génération d'images.

Avec la sortie de DALL-E 2 par OpenAI, les modèles autorégressifs et de diffusion sont devenus du jour au lendemain la nouvelle norme pour les modèles génératifs à grande échelle. Avant cela, les réseaux contradictoires génératifs (GAN) avaient toujours été le choix dominant et dérivé du StyleGAN. et d'autres technologies.

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et limage est produite en 0,13 seconde. Elle prend en charge jusquà 16 millions de pixels.

Le passage architectural du GAN au modèle de diffusion soulève également une question : les performances peuvent-elles être encore améliorées en augmentant la taille du modèle GAN, par exemple, dans un grand ensemble de données comme LAION ?

Récemment, en réponse au problème d'instabilité causé par l'augmentation de la capacité de l'architecture StyleGAN, des chercheurs de l'Université des sciences et technologies de Pohang (Corée du Sud), de l'Université Carnegie Mellon et de l'Adobe Research Institute ont proposé une nouvelle architecture de réseau antagoniste générative GigaGAN. dépasse la limite de taille du modèle et montre que le GAN peut toujours être compétent en tant que modèle de synthèse texte-image.

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et limage est produite en 0,13 seconde. Elle prend en charge jusquà 16 millions de pixels.

Lien papier : https://arxiv.org/abs/2303.05511

Lien du projet : https://mingukkang.github.io/GigaGAN/

GigaGAN présente trois avantages majeurs.

1. Elle est plus rapide lors de l'inférence. Par rapport à Stable Diffusion-v1.5 avec le même niveau de paramètres, la vitesse de génération à une résolution de 512 est raccourcie de 2,9 secondes à 0,13 seconde.

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et limage est produite en 0,13 seconde. Elle prend en charge jusquà 16 millions de pixels.

2. Peut synthétiser des images haute résolution, par exemple, synthétiser une image de 16 mégapixels en 3,66 secondes.

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et limage est produite en 0,13 seconde. Elle prend en charge jusquà 16 millions de pixels.

3. Prend en charge diverses applications d'édition d'espace latent, telles que l'interpolation latente, le mélange de styles et les opérations arithmétiques vectorielles, etc.

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et limage est produite en 0,13 seconde. Elle prend en charge jusquà 16 millions de pixels.

Le GAN a-t-il atteint sa limite ?

Une série de modèles récemment lancés, tels que DALL-E 2, Imagen, Parti et Stable Diffusion, inaugurent une nouvelle ère de génération d'images, atteignant des niveaux sans précédent de qualité d'image et de flexibilité des modèles.

Les paradigmes actuellement dominants du « modèle de diffusion » et du « modèle autorégressif » reposent tous deux sur l'épée à double tranchant du raisonnement itératif, car la méthode itérative peut effectuer un entraînement stable avec des objectifs simples, mais elle produira des erreurs lors du processus d'inférence supérieur. coûts de calcul.

En revanche, les réseaux contradictoires génératifs (GAN) ne nécessitent qu'un seul passage avant pour générer des images, ils sont donc intrinsèquement plus efficaces.

Bien que les modèles GAN aient dominé « l'ère précédente » de la modélisation générative, en raison de l'instabilité du processus de formation, l'extension du GAN nécessite un ajustement minutieux de la structure du réseau et des considérations de formation. Par conséquent, bien que les GAN soient utilisés pour un seul ou il excelle dans. modéliser plusieurs classes d'objets, mais la mise à l'échelle vers des ensembles de données complexes (sans parler de la génération d'objets en monde ouvert) reste un défi.

Donc actuellement les très grands modèles, les données et les ressources informatiques sont principalement axées sur les modèles de diffusion et autorégressifs.

Dans ce travail, les chercheurs abordent principalement les questions suivantes :

Le GAN peut-il continuer à évoluer et potentiellement bénéficier de ces ressources ? Ou le GAN atteint-il déjà sa limite ? Qu’est-ce qui entrave l’expansion des GAN ? Ces obstacles peuvent-ils être surmontés ?

Formation stable GAN

Les chercheurs ont d'abord mené des expériences avec StyleGAN2 et ont observé que la simple expansion du réseau fédérateur conduirait à une formation instable, après avoir identifié plusieurs problèmes clés, ils ont proposé de stabiliser la formation tout en augmentant la capacité du modèle.

Tout d'abord, augmentez efficacement la capacité du générateur en conservant une banque de filtres et en prenant une combinaison linéaire d'échantillons spécifiques.

Adapté plusieurs techniques couramment utilisées dans le contexte des modèles de diffusion et confirmé qu'elles peuvent apporter des améliorations de performances similaires aux GAN, telles que la combinaison d'un mécanisme d'auto-attention (image uniquement) et d'attention croisée (image-texte). Entrelacé avec convolution les couches améliorent les performances.

De plus, les chercheurs ont réintroduit la formation à plusieurs échelles et ont trouvé un nouveau schéma capable d'améliorer l'alignement image-texte et de générer des détails basse fréquence dans la sortie.

La formation multi-échelle permet aux générateurs basés sur GAN d'utiliser plus efficacement les paramètres des blocs basse résolution, ce qui entraîne un meilleur alignement image-texte et une meilleure qualité d'image.

Générateur

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et limage est produite en 0,13 seconde. Elle prend en charge jusquà 16 millions de pixels.

Le générateur de GigaGAN se compose d'une branche d'encodage de texte, d'un réseau de mappage de style et d'un réseau de synthèse multi-échelle, complétés par une attention stable) et une sélection adaptative du noyau.

Dans la branche d'encodage de texte, un modèle CLIP pré-entraîné et une couche d'attention apprise T sont d'abord utilisés pour extraire les intégrations de texte, puis le processus d'intégration est transmis au réseau de mappage de style M pour générer un vecteur de style w similaire à StyleGAN

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et limage est produite en 0,13 seconde. Elle prend en charge jusquà 16 millions de pixels.

Le réseau de synthèse utilise le codage de style comme modulation et l'intégration de texte comme attention pour générer une pyramide d'images Sur cette base, un exemple d'algorithme de sélection de noyau adaptatif est introduit pour implémenter la convolution en fonction des conditions de texte d'entrée. Sélection adaptative du noyau.

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et limage est produite en 0,13 seconde. Elle prend en charge jusquà 16 millions de pixels.

Discriminateur

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et limage est produite en 0,13 seconde. Elle prend en charge jusquà 16 millions de pixels.

Semblable au générateur, le discriminateur de GigaGAN se compose de deux branches, qui sont utilisées respectivement pour traiter les conditions d'image et de texte.

La branche texte gère la branche texte similaire au générateur ; la branche image reçoit une pyramide d'images en entrée et fait des prédictions indépendantes pour chaque échelle d'image.

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et limage est produite en 0,13 seconde. Elle prend en charge jusquà 16 millions de pixels.

Plusieurs fonctions de perte supplémentaires sont introduites dans la formule pour favoriser une convergence rapide.

Résultats expérimentaux

Réaliser une évaluation systématique et contrôlée sur des tâches de synthèse texte-image à grande échelle est difficile car la plupart des modèles existants ne sont pas accessibles au public, et même si le code de formation est disponible, en former un nouveau à partir de zéro. le coût du modèle serait également prohibitif.

Les chercheurs ont choisi de comparer leurs expériences avec Imagen, les modèles de diffusion latente (LDM), la diffusion stable et Parti, tout en reconnaissant qu'il existe des différences considérables dans les ensembles de données d'entraînement, le nombre d'itérations, la taille des lots et la taille des modèles.

Pour les indicateurs d'évaluation quantitative, la distance de démarrage de Frechet (FID) est principalement utilisée pour mesurer l'authenticité de la distribution de sortie, et le score CLIP est utilisé pour évaluer l'alignement image-texte.

Cinq expériences différentes ont été menées dans l'article :

1 Démontrer l'efficacité de la méthode proposée en intégrant progressivement chaque composant technique ;

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et limage est produite en 0,13 seconde. Elle prend en charge jusquà 16 millions de pixels.

2. Montrez que GigaGAN présente un FID comparable à la diffusion stable (SD-v1.5) tout en générant des résultats des centaines de fois plus rapides que les modèles de diffusion ou autorégressifs

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et limage est produite en 0,13 seconde. Elle prend en charge jusquà 16 millions de pixels.

3. Le modèle montre que GigaGAN peut synthétiser des images de meilleure qualité plus rapidement que le modèle de diffusion basé sur la distillation

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et limage est produite en 0,13 seconde. Elle prend en charge jusquà 16 millions de pixels.

4. Il est vérifié que le suréchantillonneur de GigaGAN fonctionne avec des super avantages conditionnels et inconditionnels par rapport aux autres suréchantillonneurs dans les tâches de résolution ;

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et limage est produite en 0,13 seconde. Elle prend en charge jusquà 16 millions de pixels.

5. Les résultats montrent que les GAN à grande échelle bénéficient toujours des opérations spatiales latentes continues et décomposées des GAN, permettant de nouveaux modes d'édition d'images.

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et limage est produite en 0,13 seconde. Elle prend en charge jusquà 16 millions de pixels.

Après avoir ajusté les paramètres, les chercheurs ont réalisé une formation stable et évolutive d'un GAN d'un milliard de paramètres (GigaGAN) sur des ensembles de données à grande échelle tels que LAION2B-en.

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et limage est produite en 0,13 seconde. Elle prend en charge jusquà 16 millions de pixels.

Et la méthode adopte une approche en plusieurs étapes, d'abord générant en 64×64, puis suréchantillonnant à 512×512. Ces deux réseaux sont suffisamment modulaires et puissants pour pouvoir être utilisés en mode Plug and Play. .

Les résultats montrent que le réseau de suréchantillonnage GAN conditionné par le texte peut servir de suréchantillonneur efficace et de haute qualité pour les modèles de diffusion de base (tels que DALL-E 2), même s'il n'a jamais vu d'images du modèle de diffusion pendant la formation.

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et limage est produite en 0,13 seconde. Elle prend en charge jusquà 16 millions de pixels.

Ensemble, ces résultats rendent GigaGAN bien supérieur aux modèles GAN précédents, 36 fois plus grand que StyleGAN2 et 6 fois plus grand que StyleGAN-XL et XMC-GAN.

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et limage est produite en 0,13 seconde. Elle prend en charge jusquà 16 millions de pixels.

Bien que le volume de 1 milliard de paramètres de GiGAN soit encore inférieur à celui des plus grands modèles synthétiques récemment publiés tels que Imagen (3B), DALL-E 2 (5,5B) et Parti (20B), ce n'est pas encore le cas. Une saturation de masse disponible par rapport à la taille du modèle a été observée.

GigaGAN a atteint un FID zéro tir de 9,09 sur l'ensemble de données COCO2014, ce qui est inférieur au FID de DALL-E 2, Parti-750M et Stable Diffusion

Scénarios d'application

Interpolation rapide (interpolation rapide )

GigaGAN peut interpoler en douceur entre les indices. Les quatre coins de l'image ci-dessous sont générés par le même code latent, mais avec des indices de texte différents.

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et limage est produite en 0,13 seconde. Elle prend en charge jusquà 16 millions de pixels.

Mélange d'invites démêlées

GigaGAN préserve un espace latent séparé, permettant le couplage du style grossier d'un échantillon avec le style fin d'un autre échantillon, et GigaGAN peut contrôler directement les styles via des invites de texte .

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et limage est produite en 0,13 seconde. Elle prend en charge jusquà 16 millions de pixels.

Échange de style grossier à fin

L'architecture de modèle basée sur GAN conserve un espace latent séparé, permettant de comparer le style grossier d'un échantillon à un autre Un échantillon de styles fins mélangés ensemble.

Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et limage est produite en 0,13 seconde. Elle prend en charge jusquà 16 millions de pixels.

Référence :

https://mingukkang.github.io/GigaGAN/

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!