


Pour 1 890 $, vous pouvez former un modèle de diffusion de paramètres décent de 1,2 milliard à partir de zéro.
Avec seulement 1890 dollars américains et 37 millions d'images, vous pouvez former un assez bon modèle de diffusion.
Actuellement, les modèles visuels génératifs sont efficaces pour créer du contenu visuel réaliste, mais le coût et les efforts nécessaires à la formation de ces modèles à partir de zéro restent élevés. Par exemple, Stable Diffusion 2.1 a nécessité 200 000 heures GPU A100. Même si les chercheurs utilisent la méthode la plus avancée, il faut quand même plus d’un mois pour s’entraîner sur un GPU 8×H100.
De plus, la formation de grands modèles pose également des défis aux ensembles de données. Ces données sont essentiellement exprimées en unités de centaines de millions, ce qui pose également des défis à la formation des modèles.
Les coûts de formation élevés et les exigences en matière d'ensembles de données créent des obstacles insurmontables pour le développement de modèles de diffusion à grande échelle.
Maintenant, les chercheurs de Sony AI et d'autres institutions n'ont dépensé que 1 890 $ pour former un bon modèle de diffusion, un transformateur clairsemé avec 1,16 milliard de paramètres.
Adresse de l'article : https://arxiv.org/pdf/2407.15811
Titre de l'article : Stretching Each Dollar : Diffusion Training from Scratch on a Micro-Budget
(à venir) : https://github.com/SonyResearch/micro_diffusion
Plus précisément, dans ce travail, l'auteur développe un pipeline de bout en bout à faible coût pour le modèle de diffusion texte-image, rendant le coût de formation inférieur à celui de SOTA. Le modèle est plus rapide d’un ordre de grandeur, sans nécessiter l’accès à des milliards d’images d’entraînement ou à des ensembles de données propriétaires.
L'auteur a envisagé un modèle de diffusion potentiel basé sur un transformateur visuel pour le texte en génération d'images, principalement parce que cette méthode est simple à concevoir et largement utilisée. Pour réduire le coût de calcul, les auteurs exploitent la forte dépendance du coût de calcul du transformateur à la taille de la séquence d’entrée (c’est-à-dire le nombre de correctifs par image).
L'objectif principal de cet article est de réduire le nombre de correctifs efficaces utilisés par le transformateur pour traiter chaque image pendant le processus de formation. Ceci peut être facilement réalisé en masquant de manière aléatoire certains jetons dans la couche d'entrée du transformateur.
Cependant, les méthodes de masquage existantes sont incapables d'étendre le taux de masquage au-delà de 50 % sans réduire considérablement les performances, en particulier à des taux de masquage élevés où une grande partie du patch d'entrée n'est pas du tout observée par le transformateur de diffusion.
Afin d'atténuer la dégradation significative des performances causée par le masquage, l'auteur propose une stratégie de masquage différé, dans laquelle tous les patchs sont prétraités par un mélangeur de patchs léger (patch-mixer) puis transférés au transformateur de diffusion. Les mélangeurs de patch contiennent une fraction du nombre de paramètres trouvés dans les transformateurs de diffusion.
Par rapport aux méthodes de masquage naïves, le masquage après mélange de patchs permet aux patchs non masqués de conserver des informations sémantiques sur l'ensemble de l'image et permet une formation fiable des transformateurs de diffusion à des taux de masquage très élevés tout en rivalisant avec les meilleures méthodes existantes. Il n'y a pas de coût de calcul supplémentaire par rapport. au masquage avancé.
Les auteurs démontrent également que la stratégie de masquage retardé permet d'obtenir de meilleures performances que la réduction des effectifs (c'est-à-dire la réduction de la taille du modèle) avec le même budget de calcul. Enfin, les auteurs intègrent les avancées récentes de l'architecture Transformer, telles que la mise à l'échelle couche par couche et le Transformer clairsemé utilisant MoE, pour améliorer les performances de la formation à grande échelle.
Le pipeline de formation à faible coût proposé par l'auteur réduit les frais généraux expérimentaux. En plus d’utiliser des images réelles, les auteurs ont également envisagé de combiner d’autres images synthétiques dans l’ensemble de données de formation. L’ensemble de données combiné ne contient que 37 millions d’images, soit beaucoup moins de données que n’exigent la plupart des modèles à grande échelle existants.
Sur cet ensemble de données combiné, l'auteur a formé un transformateur clairsemé de 1,16 milliard de paramètres pour un coût de 1 890 $ et a atteint 12,7 FID en génération zéro-shot sur l'ensemble de données COCO.
Il convient de noter que le modèle formé dans cet article permet d'obtenir un FID compétitif et une génération de haute qualité, tout en coûtant seulement 1/118 du modèle de diffusion stable et 1/1 de la méthode de pointe actuelle (estimation des coûts). 28 400 $) 15.

Introduction à la méthode
Afin de réduire considérablement le coût de calcul, le masquage des patchs nécessite de supprimer la plupart des patchs d'entrée avant de les entrer dans le transformateur principal, afin que le transformateur ne puisse pas obtenir les informations du patch masqué. . Des taux de masquage élevés (tels qu'un taux de masquage de 75 %) peuvent réduire considérablement les performances globales du transformateur. Même avec MaskDiT, seule une faible amélioration par rapport au masquage naïf peut être observée, puisque cette méthode supprime également la plupart des patchs d’image dans la couche d’entrée elle-même.
Masquage retardé, conservant les informations sémantiques de tous les correctifs
Étant donné qu'un taux de masquage élevé supprimera la plupart des signaux d'apprentissage précieux dans l'image, l'auteur ne peut s'empêcher de demander : est-il nécessaire de masquer dans la couche d'entrée ? Tant que le coût de calcul reste constant, il ne s’agit que d’un choix de conception et non d’une limitation fondamentale. En fait, les auteurs ont découvert une stratégie de masquage bien meilleure qui coûte presque le même prix que la méthode MaskDiT existante. Étant donné que les correctifs proviennent de régions d’image qui ne se chevauchent pas dans le transformateur de diffusion, chaque intégration de correctifs n’intègre aucune information provenant d’autres correctifs dans l’image. Par conséquent, les auteurs visent à prétraiter les intégrations de correctifs avant le masquage afin que les correctifs non masqués puissent intégrer les informations de l’image entière. Ils appellent le module de prétraitement patch-mixer.
Utilisez un mélangeur de patchs pour entraîner un transformateur de diffusion
L'auteur pense que le mélangeur de patchs est toute architecture neuronale qui peut fusionner des intégrations de patchs individuelles. Dans le modèle du transformateur, cet objectif peut naturellement être atteint grâce à une combinaison de couches d’attention et de rétroaction. Par conséquent, les auteurs utilisent un transformateur léger composé de seulement quelques couches comme mélangeur de patchs. Une fois les jetons de séquence d'entrée traités par patch-mixer, ils les masquent (Figure 2e).
Figure 2 : Compresser la séquence de correctifs pour réduire le coût de calcul. Étant donné que le coût de formation d'un transformateur de diffusion est proportionnel à la taille de la séquence (c'est-à-dire le nombre de patchs), il est préférable de réduire la taille de la séquence sans dégrader les performances. Ceci peut être réalisé en : b) en utilisant un patch plus grand ; c) en masquant de manière aléatoire une partie du patch ou d) en utilisant MaskDiT, qui combine un masquage naïf avec des objectifs d'auto-codage supplémentaires ; Les auteurs ont constaté que les trois méthodes entraînaient une dégradation significative des performances de génération d’images, en particulier à des taux de masquage élevés. Pour atténuer ce problème, ils ont proposé une stratégie simple de masquage retardé qui masque le patch après son traitement par le mélangeur de patchs. Leur approche est similaire au masquage naïf à tous égards, à l'exception de l'utilisation d'un patch-mixer. Par rapport à MaskDiT, leur méthode ne nécessite l’optimisation d’aucun objectif de substitution et a presque le même coût de calcul.
En supposant que le masque est un masque binaire m, l'auteur utilise la fonction de perte suivante pour entraîner le modèle :
où, M_ϕ est le modèle de mixeur de patch et F_θ est le transformateur de base. Notez que par rapport à MaskDiT, la méthode proposée simplifie également la conception globale et ne nécessite pas de fonctions de perte supplémentaires ni de réglage d'hyperparamètres correspondant entre les deux pertes pendant l'entraînement. Lors de l'inférence, cette méthode ne masque aucun correctif.
Réglage fin non masqué
Étant donné qu'un taux de masquage extrêmement élevé réduira considérablement la capacité du modèle de diffusion à apprendre la structure globale de l'image et introduire un décalage de distribution de test de train sur la taille de la séquence, l'auteur envisage de faire une petite quantité après un pré-entraînement masqué de réglage fin non masqué. Un réglage fin peut également atténuer les artefacts de génération causés par l’utilisation du masquage des correctifs. Par conséquent, dans les travaux antérieurs, il est crucial de récupérer les performances qui chutent fortement en raison du masquage, en particulier lors de l’utilisation d’un bootstrap sans classificateur dans l’échantillonnage. Cependant, les auteurs soutiennent que cela n’est pas entièrement nécessaire, car leur méthode permet d’obtenir des performances comparables à celles d’un pré-entraînement non masqué de base, même avec un pré-entraînement masqué. Les auteurs n'utilisent cette approche que dans le cadre d'une formation à grande échelle pour atténuer tout artefact de génération inconnu-inconnu dû au masquage élevé des correctifs.
Utilisation de MoE et de la mise à l'échelle par couche pour améliorer l'architecture du transformateur de base
L'auteur exploite également les innovations dans la conception de l'architecture du transformateur pour améliorer les performances du modèle sous des contraintes informatiques.
Ils utilisent des couches expertes hybrides car elles augmentent les paramètres et l'expressivité du modèle sans augmenter significativement le coût de formation. Ils utilisent une couche MoE simplifiée basée sur un routage de sélection par des experts, où chaque expert décide quels jetons lui sont acheminés, car elle ne nécessite aucune fonction de perte auxiliaire supplémentaire pour équilibrer la charge entre les experts. Ils ont également pris en compte la mise à l'échelle par couche, qui s'est récemment avérée plus performante que les transformateurs classiques dans les grands modèles de langage. Cette méthode augmente linéairement la largeur du bloc de transformateur, c'est-à-dire la dimension de la couche cachée des couches d'attention et de rétroaction. Par conséquent, les couches plus profondes du réseau se voient attribuer plus de paramètres que les couches précédentes. Les auteurs pensent que, puisque les couches plus profondes d’un modèle visuel ont tendance à apprendre des fonctionnalités plus complexes, l’utilisation de paramètres plus élevés dans des couches plus profondes entraînera de meilleures performances. Les auteurs décrivent l'architecture globale de leur transformateur de diffusion proposé dans la figure 3.
Figure 3 : L'architecture globale du transformateur de diffusion proposé dans cet article. Les auteurs ont ajouté un mélangeur de patchs léger au modèle de transformateur de base, qui traite tous les patchs de l'image d'entrée avant qu'ils ne soient masqués. Suite aux travaux actuels, les auteurs utilisent une couche d’attention pour traiter les intégrations de légendes, qui sont ensuite utilisées pour le conditionnement. Ils utilisent une intégration sinusoïdale pour représenter le pas de temps. Leur modèle débruite uniquement les patchs non masqués, donc la perte de diffusion (équation 3 dans l'article) n'est calculée que pour ces patchs. Ils ont modifié le transformateur de base pour utiliser une mise à l'échelle par couche sur des couches individuelles et des couches expertes mixtes dans des blocs de transformateur alternés.
Expérience
L'expérience utilise deux variantes de transformateur de diffusion (DiT), DiT-Tiny/2 et DiT-Xl/2.
Comme le montre la figure 4, la méthode de masquage des délais permet d'obtenir de meilleures performances dans plusieurs métriques. De plus, à mesure que le taux de masquage augmente, l’écart de performances se creuse. Par exemple, avec un taux de masquage de 75 %, le masquage naïf réduit le score FID à 16,5 (le plus bas est le mieux), tandis que notre méthode peut atteindre 5,03, ce qui est plus proche du score FID de 3,79 sans masquage.
Le tableau 1 montre que la méthode de mise à l'échelle par couche a un meilleur effet d'ajustement dans la formation de masquage du transformateur de diffusion.
Comparez différentes stratégies de masquage. Les auteurs comparent d’abord notre méthode avec des stratégies utilisant des patchs plus grands. Augmenter la taille du patch de 2 à 4 équivaut à un masquage du patch de 75 %. Par rapport au masquage retardé, les autres méthodes fonctionnent mal, atteignant respectivement seulement 9,38, 6,31 et 26,70 FID, Clip-FID et Clip-score. En comparaison, le masquage de latence atteint respectivement 7,09, 4,10 et 28,24 FID, Clip-FID et Clip-score.
L'image ci-dessous montre la comparaison entre le masquage retardé et le rétrécissement du modèle pour réduire les coûts de formation. Jusqu'à ce que le taux de masquage atteigne 75 %, les auteurs constatent que le masquage retardé surpasse la réduction du réseau dans au moins deux des trois mesures. Cependant, à des taux de masquage extrêmement élevés, le masquage retardé a tendance à donner des performances inférieures. Cela peut être dû à une perte d'informations masquée lorsque ces ratios sont trop élevés.
Le tableau 5 fournit des détails sur les hyperparamètres de formation du modèle. Le processus de formation est divisé en deux étapes.
Calculez le coût. Le tableau 2 fournit une ventilation des coûts de calcul pour chaque étape de formation, y compris les FLOP de formation et les coûts économiques. La formation des phases 1 et 2 a consommé respectivement 56 % et 44 % du coût informatique total. Le temps total de formation de l'horloge du modèle sur un cluster GPU 8 × H100 est de 2,6 jours, ce qui équivaut à 6,6 jours sur un cluster GPU 8 × A100.
Pour plus de résultats, veuillez vous référer à l'article original.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Il s'agit également d'une vidéo Tusheng, mais PaintsUndo a emprunté une voie différente. L'auteur de ControlNet, LvminZhang, a recommencé à vivre ! Cette fois, je vise le domaine de la peinture. Le nouveau projet PaintsUndo a reçu 1,4kstar (toujours en hausse folle) peu de temps après son lancement. Adresse du projet : https://github.com/lllyasviel/Paints-UNDO Grâce à ce projet, l'utilisateur saisit une image statique et PaintsUndo peut automatiquement vous aider à générer une vidéo de l'ensemble du processus de peinture, du brouillon de ligne au suivi du produit fini. . Pendant le processus de dessin, les changements de lignes sont étonnants. Le résultat vidéo final est très similaire à l’image originale : jetons un coup d’œil à un dessin complet.

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Les auteurs de cet article font tous partie de l'équipe de l'enseignant Zhang Lingming de l'Université de l'Illinois à Urbana-Champaign (UIUC), notamment : Steven Code repair ; doctorant en quatrième année, chercheur

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Dans le processus de développement de l'intelligence artificielle, le contrôle et le guidage des grands modèles de langage (LLM) ont toujours été l'un des principaux défis, visant à garantir que ces modèles sont à la fois puissant et sûr au service de la société humaine. Les premiers efforts se sont concentrés sur les méthodes d’apprentissage par renforcement par feedback humain (RL

Si la réponse donnée par le modèle d’IA est incompréhensible du tout, oseriez-vous l’utiliser ? À mesure que les systèmes d’apprentissage automatique sont utilisés dans des domaines de plus en plus importants, il devient de plus en plus important de démontrer pourquoi nous pouvons faire confiance à leurs résultats, et quand ne pas leur faire confiance. Une façon possible de gagner confiance dans le résultat d'un système complexe est d'exiger que le système produise une interprétation de son résultat qui soit lisible par un humain ou un autre système de confiance, c'est-à-dire entièrement compréhensible au point que toute erreur possible puisse être trouvé. Par exemple, pour renforcer la confiance dans le système judiciaire, nous exigeons que les tribunaux fournissent des avis écrits clairs et lisibles qui expliquent et soutiennent leurs décisions. Pour les grands modèles de langage, nous pouvons également adopter une approche similaire. Cependant, lorsque vous adoptez cette approche, assurez-vous que le modèle de langage génère

Récemment, l’hypothèse de Riemann, connue comme l’un des sept problèmes majeurs du millénaire, a réalisé une nouvelle avancée. L'hypothèse de Riemann est un problème mathématique non résolu très important, lié aux propriétés précises de la distribution des nombres premiers (les nombres premiers sont les nombres qui ne sont divisibles que par 1 et par eux-mêmes, et jouent un rôle fondamental dans la théorie des nombres). Dans la littérature mathématique actuelle, il existe plus d'un millier de propositions mathématiques basées sur l'établissement de l'hypothèse de Riemann (ou sa forme généralisée). En d’autres termes, une fois que l’hypothèse de Riemann et sa forme généralisée seront prouvées, ces plus d’un millier de propositions seront établies sous forme de théorèmes, qui auront un impact profond sur le domaine des mathématiques et si l’hypothèse de Riemann s’avère fausse, alors parmi eux ; ces propositions qui en font partie perdront également de leur efficacité. Une nouvelle percée vient du professeur de mathématiques du MIT, Larry Guth, et de l'Université d'Oxford

acclamations! Qu’est-ce que ça fait lorsqu’une discussion sur papier se résume à des mots ? Récemment, des étudiants de l'Université de Stanford ont créé alphaXiv, un forum de discussion ouvert pour les articles arXiv qui permet de publier des questions et des commentaires directement sur n'importe quel article arXiv. Lien du site Web : https://alphaxiv.org/ En fait, il n'est pas nécessaire de visiter spécifiquement ce site Web. Il suffit de remplacer arXiv dans n'importe quelle URL par alphaXiv pour ouvrir directement l'article correspondant sur le forum alphaXiv : vous pouvez localiser avec précision les paragraphes dans. l'article, Phrase : dans la zone de discussion sur la droite, les utilisateurs peuvent poser des questions à l'auteur sur les idées et les détails de l'article. Par exemple, ils peuvent également commenter le contenu de l'article, tels que : "Donné à".

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com. Introduction Ces dernières années, l'application de grands modèles de langage multimodaux (MLLM) dans divers domaines a connu un succès remarquable. Cependant, en tant que modèle de base pour de nombreuses tâches en aval, le MLLM actuel se compose du célèbre réseau Transformer, qui

Montrez la chaîne causale à LLM et il pourra apprendre les axiomes. L'IA aide déjà les mathématiciens et les scientifiques à mener des recherches. Par exemple, le célèbre mathématicien Terence Tao a partagé à plusieurs reprises son expérience de recherche et d'exploration à l'aide d'outils d'IA tels que GPT. Pour que l’IA soit compétitive dans ces domaines, des capacités de raisonnement causal solides et fiables sont essentielles. La recherche présentée dans cet article a révélé qu'un modèle Transformer formé sur la démonstration de l'axiome de transitivité causale sur de petits graphes peut se généraliser à l'axiome de transitivité sur de grands graphes. En d’autres termes, si le Transformateur apprend à effectuer un raisonnement causal simple, il peut être utilisé pour un raisonnement causal plus complexe. Le cadre de formation axiomatique proposé par l'équipe est un nouveau paradigme pour l'apprentissage du raisonnement causal basé sur des données passives, avec uniquement des démonstrations.
