Maison > Périphériques technologiques > IA > Pour 1 890 $, vous pouvez former un modèle de diffusion de paramètres décent de 1,2 milliard à partir de zéro.

Pour 1 890 $, vous pouvez former un modèle de diffusion de paramètres décent de 1,2 milliard à partir de zéro.

WBOY
Libérer: 2024-07-29 18:41:44
original
546 Les gens l'ont consulté

Avec seulement 1890 dollars américains et 37 millions d'images, vous pouvez former un assez bon modèle de diffusion.

Actuellement, les modèles visuels génératifs sont efficaces pour créer du contenu visuel réaliste, mais le coût et les efforts nécessaires à la formation de ces modèles à partir de zéro restent élevés. Par exemple, Stable Diffusion 2.1 a nécessité 200 000 heures GPU A100. Même si les chercheurs utilisent la méthode la plus avancée, il faut quand même plus d’un mois pour s’entraîner sur un GPU 8×H100.

De plus, la formation de grands modèles pose également des défis aux ensembles de données. Ces données sont essentiellement exprimées en unités de centaines de millions, ce qui pose également des défis à la formation des modèles.

Les coûts de formation élevés et les exigences en matière d'ensembles de données créent des obstacles insurmontables pour le développement de modèles de diffusion à grande échelle.

Maintenant, les chercheurs de Sony AI et d'autres institutions n'ont dépensé que 1 890 $ pour former un bon modèle de diffusion, un transformateur clairsemé avec 1,16 milliard de paramètres.

Pour 1 890 $, vous pouvez former un modèle de diffusion de paramètres décent de 1,2 milliard à partir de zéro.

  • Adresse de l'article : https://arxiv.org/pdf/2407.15811

  • Titre de l'article : Stretching Each Dollar : Diffusion Training from Scratch on a Micro-Budget

  • (à venir) : https://github.com/SonyResearch/micro_diffusion

Plus précisément, dans ce travail, l'auteur développe un pipeline de bout en bout à faible coût pour le modèle de diffusion texte-image, rendant le coût de formation inférieur à celui de SOTA. Le modèle est plus rapide d’un ordre de grandeur, sans nécessiter l’accès à des milliards d’images d’entraînement ou à des ensembles de données propriétaires.

L'auteur a envisagé un modèle de diffusion potentiel basé sur un transformateur visuel pour le texte en génération d'images, principalement parce que cette méthode est simple à concevoir et largement utilisée. Pour réduire le coût de calcul, les auteurs exploitent la forte dépendance du coût de calcul du transformateur à la taille de la séquence d’entrée (c’est-à-dire le nombre de correctifs par image).

L'objectif principal de cet article est de réduire le nombre de correctifs efficaces utilisés par le transformateur pour traiter chaque image pendant le processus de formation. Ceci peut être facilement réalisé en masquant de manière aléatoire certains jetons dans la couche d'entrée du transformateur.

Cependant, les méthodes de masquage existantes sont incapables d'étendre le taux de masquage au-delà de 50 % sans réduire considérablement les performances, en particulier à des taux de masquage élevés où une grande partie du patch d'entrée n'est pas du tout observée par le transformateur de diffusion.

Afin d'atténuer la dégradation significative des performances causée par le masquage, l'auteur propose une stratégie de masquage différé, dans laquelle tous les patchs sont prétraités par un mélangeur de patchs léger (patch-mixer) puis transférés au transformateur de diffusion. Les mélangeurs de patch contiennent une fraction du nombre de paramètres trouvés dans les transformateurs de diffusion.

Par rapport aux méthodes de masquage naïves, le masquage après mélange de patchs permet aux patchs non masqués de conserver des informations sémantiques sur l'ensemble de l'image et permet une formation fiable des transformateurs de diffusion à des taux de masquage très élevés tout en rivalisant avec les meilleures méthodes existantes. Il n'y a pas de coût de calcul supplémentaire par rapport. au masquage avancé.

Les auteurs démontrent également que la stratégie de masquage retardé permet d'obtenir de meilleures performances que la réduction des effectifs (c'est-à-dire la réduction de la taille du modèle) avec le même budget de calcul. Enfin, les auteurs intègrent les avancées récentes de l'architecture Transformer, telles que la mise à l'échelle couche par couche et le Transformer clairsemé utilisant MoE, pour améliorer les performances de la formation à grande échelle.

Le pipeline de formation à faible coût proposé par l'auteur réduit les frais généraux expérimentaux. En plus d’utiliser des images réelles, les auteurs ont également envisagé de combiner d’autres images synthétiques dans l’ensemble de données de formation. L’ensemble de données combiné ne contient que 37 millions d’images, soit beaucoup moins de données que n’exigent la plupart des modèles à grande échelle existants.

Sur cet ensemble de données combiné, l'auteur a formé un transformateur clairsemé de 1,16 milliard de paramètres pour un coût de 1 890 $ et a atteint 12,7 FID en génération zéro-shot sur l'ensemble de données COCO.

Il convient de noter que le modèle formé dans cet article permet d'obtenir un FID compétitif et une génération de haute qualité, tout en coûtant seulement 1/118 du modèle de diffusion stable et 1/1 de la méthode de pointe actuelle (estimation des coûts). 28 400 $) 15.

Pour 1 890 $, vous pouvez former un modèle de diffusion de paramètres décent de 1,2 milliard à partir de zéro.

Introduction à la méthode

Afin de réduire considérablement le coût de calcul, le masquage des patchs nécessite de supprimer la plupart des patchs d'entrée avant de les entrer dans le transformateur principal, afin que le transformateur ne puisse pas obtenir les informations du patch masqué. . Des taux de masquage élevés (tels qu'un taux de masquage de 75 %) peuvent réduire considérablement les performances globales du transformateur. Même avec MaskDiT, seule une faible amélioration par rapport au masquage naïf peut être observée, puisque cette méthode supprime également la plupart des patchs d’image dans la couche d’entrée elle-même.

Masquage retardé, conservant les informations sémantiques de tous les correctifs

Étant donné qu'un taux de masquage élevé supprimera la plupart des signaux d'apprentissage précieux dans l'image, l'auteur ne peut s'empêcher de demander : est-il nécessaire de masquer dans la couche d'entrée ? Tant que le coût de calcul reste constant, il ne s’agit que d’un choix de conception et non d’une limitation fondamentale. En fait, les auteurs ont découvert une stratégie de masquage bien meilleure qui coûte presque le même prix que la méthode MaskDiT existante. Étant donné que les correctifs proviennent de régions d’image qui ne se chevauchent pas dans le transformateur de diffusion, chaque intégration de correctifs n’intègre aucune information provenant d’autres correctifs dans l’image. Par conséquent, les auteurs visent à prétraiter les intégrations de correctifs avant le masquage afin que les correctifs non masqués puissent intégrer les informations de l’image entière. Ils appellent le module de prétraitement patch-mixer.

Utilisez un mélangeur de patchs pour entraîner un transformateur de diffusion

L'auteur pense que le mélangeur de patchs est toute architecture neuronale qui peut fusionner des intégrations de patchs individuelles. Dans le modèle du transformateur, cet objectif peut naturellement être atteint grâce à une combinaison de couches d’attention et de rétroaction. Par conséquent, les auteurs utilisent un transformateur léger composé de seulement quelques couches comme mélangeur de patchs. Une fois les jetons de séquence d'entrée traités par patch-mixer, ils les masquent (Figure 2e).

Pour 1 890 $, vous pouvez former un modèle de diffusion de paramètres décent de 1,2 milliard à partir de zéro.

Figure 2 : Compresser la séquence de correctifs pour réduire le coût de calcul. Étant donné que le coût de formation d'un transformateur de diffusion est proportionnel à la taille de la séquence (c'est-à-dire le nombre de patchs), il est préférable de réduire la taille de la séquence sans dégrader les performances. Ceci peut être réalisé en : b) en utilisant un patch plus grand ; c) en masquant de manière aléatoire une partie du patch ou d) en utilisant MaskDiT, qui combine un masquage naïf avec des objectifs d'auto-codage supplémentaires ; Les auteurs ont constaté que les trois méthodes entraînaient une dégradation significative des performances de génération d’images, en particulier à des taux de masquage élevés. Pour atténuer ce problème, ils ont proposé une stratégie simple de masquage retardé qui masque le patch après son traitement par le mélangeur de patchs. Leur approche est similaire au masquage naïf à tous égards, à l'exception de l'utilisation d'un patch-mixer. Par rapport à MaskDiT, leur méthode ne nécessite l’optimisation d’aucun objectif de substitution et a presque le même coût de calcul.

En supposant que le masque est un masque binaire m, l'auteur utilise la fonction de perte suivante pour entraîner le modèle :

Pour 1 890 $, vous pouvez former un modèle de diffusion de paramètres décent de 1,2 milliard à partir de zéro.

où, M_ϕ est le modèle de mixeur de patch et F_θ est le transformateur de base. Notez que par rapport à MaskDiT, la méthode proposée simplifie également la conception globale et ne nécessite pas de fonctions de perte supplémentaires ni de réglage d'hyperparamètres correspondant entre les deux pertes pendant l'entraînement. Lors de l'inférence, cette méthode ne masque aucun correctif.

Réglage fin non masqué

Étant donné qu'un taux de masquage extrêmement élevé réduira considérablement la capacité du modèle de diffusion à apprendre la structure globale de l'image et introduire un décalage de distribution de test de train sur la taille de la séquence, l'auteur envisage de faire une petite quantité après un pré-entraînement masqué de réglage fin non masqué. Un réglage fin peut également atténuer les artefacts de génération causés par l’utilisation du masquage des correctifs. Par conséquent, dans les travaux antérieurs, il est crucial de récupérer les performances qui chutent fortement en raison du masquage, en particulier lors de l’utilisation d’un bootstrap sans classificateur dans l’échantillonnage. Cependant, les auteurs soutiennent que cela n’est pas entièrement nécessaire, car leur méthode permet d’obtenir des performances comparables à celles d’un pré-entraînement non masqué de base, même avec un pré-entraînement masqué. Les auteurs n'utilisent cette approche que dans le cadre d'une formation à grande échelle pour atténuer tout artefact de génération inconnu-inconnu dû au masquage élevé des correctifs.

Utilisation de MoE et de la mise à l'échelle par couche pour améliorer l'architecture du transformateur de base

L'auteur exploite également les innovations dans la conception de l'architecture du transformateur pour améliorer les performances du modèle sous des contraintes informatiques.

Ils utilisent des couches expertes hybrides car elles augmentent les paramètres et l'expressivité du modèle sans augmenter significativement le coût de formation. Ils utilisent une couche MoE simplifiée basée sur un routage de sélection par des experts, où chaque expert décide quels jetons lui sont acheminés, car elle ne nécessite aucune fonction de perte auxiliaire supplémentaire pour équilibrer la charge entre les experts. Ils ont également pris en compte la mise à l'échelle par couche, qui s'est récemment avérée plus performante que les transformateurs classiques dans les grands modèles de langage. Cette méthode augmente linéairement la largeur du bloc de transformateur, c'est-à-dire la dimension de la couche cachée des couches d'attention et de rétroaction. Par conséquent, les couches plus profondes du réseau se voient attribuer plus de paramètres que les couches précédentes. Les auteurs pensent que, puisque les couches plus profondes d’un modèle visuel ont tendance à apprendre des fonctionnalités plus complexes, l’utilisation de paramètres plus élevés dans des couches plus profondes entraînera de meilleures performances. Les auteurs décrivent l'architecture globale de leur transformateur de diffusion proposé dans la figure 3.

Pour 1 890 $, vous pouvez former un modèle de diffusion de paramètres décent de 1,2 milliard à partir de zéro.

Figure 3 : L'architecture globale du transformateur de diffusion proposé dans cet article. Les auteurs ont ajouté un mélangeur de patchs léger au modèle de transformateur de base, qui traite tous les patchs de l'image d'entrée avant qu'ils ne soient masqués. Suite aux travaux actuels, les auteurs utilisent une couche d’attention pour traiter les intégrations de légendes, qui sont ensuite utilisées pour le conditionnement. Ils utilisent une intégration sinusoïdale pour représenter le pas de temps. Leur modèle débruite uniquement les patchs non masqués, donc la perte de diffusion (équation 3 dans l'article) n'est calculée que pour ces patchs. Ils ont modifié le transformateur de base pour utiliser une mise à l'échelle par couche sur des couches individuelles et des couches expertes mixtes dans des blocs de transformateur alternés.

Expérience

L'expérience utilise deux variantes de transformateur de diffusion (DiT), DiT-Tiny/2 et DiT-Xl/2.

Comme le montre la figure 4, la méthode de masquage des délais permet d'obtenir de meilleures performances dans plusieurs métriques. De plus, à mesure que le taux de masquage augmente, l’écart de performances se creuse. Par exemple, avec un taux de masquage de 75 %, le masquage naïf réduit le score FID à 16,5 (le plus bas est le mieux), tandis que notre méthode peut atteindre 5,03, ce qui est plus proche du score FID de 3,79 sans masquage.

Pour 1 890 $, vous pouvez former un modèle de diffusion de paramètres décent de 1,2 milliard à partir de zéro.

Le tableau 1 montre que la méthode de mise à l'échelle par couche a un meilleur effet d'ajustement dans la formation de masquage du transformateur de diffusion.

Pour 1 890 $, vous pouvez former un modèle de diffusion de paramètres décent de 1,2 milliard à partir de zéro.

Comparez différentes stratégies de masquage. Les auteurs comparent d’abord notre méthode avec des stratégies utilisant des patchs plus grands. Augmenter la taille du patch de 2 à 4 équivaut à un masquage du patch de 75 %. Par rapport au masquage retardé, les autres méthodes fonctionnent mal, atteignant respectivement seulement 9,38, 6,31 et 26,70 FID, Clip-FID et Clip-score. En comparaison, le masquage de latence atteint respectivement 7,09, 4,10 et 28,24 FID, Clip-FID et Clip-score.

Pour 1 890 $, vous pouvez former un modèle de diffusion de paramètres décent de 1,2 milliard à partir de zéro.

L'image ci-dessous montre la comparaison entre le masquage retardé et le rétrécissement du modèle pour réduire les coûts de formation. Jusqu'à ce que le taux de masquage atteigne 75 %, les auteurs constatent que le masquage retardé surpasse la réduction du réseau dans au moins deux des trois mesures. Cependant, à des taux de masquage extrêmement élevés, le masquage retardé a tendance à donner des performances inférieures. Cela peut être dû à une perte d'informations masquée lorsque ces ratios sont trop élevés.

Pour 1 890 $, vous pouvez former un modèle de diffusion de paramètres décent de 1,2 milliard à partir de zéro.

Le tableau 5 fournit des détails sur les hyperparamètres de formation du modèle. Le processus de formation est divisé en deux étapes.

Pour 1 890 $, vous pouvez former un modèle de diffusion de paramètres décent de 1,2 milliard à partir de zéro.

Calculez le coût. Le tableau 2 fournit une ventilation des coûts de calcul pour chaque étape de formation, y compris les FLOP de formation et les coûts économiques. La formation des phases 1 et 2 a consommé respectivement 56 % et 44 % du coût informatique total. Le temps total de formation de l'horloge du modèle sur un cluster GPU 8 × H100 est de 2,6 jours, ce qui équivaut à 6,6 jours sur un cluster GPU 8 × A100.

Pour 1 890 $, vous pouvez former un modèle de diffusion de paramètres décent de 1,2 milliard à partir de zéro.

Pour plus de résultats, veuillez vous référer à l'article original.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:jiqizhixin.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal