Auteur丨Mike Young
Traduction : La langue pour recréer le contenu sans changer le sens original est le chinois, et la phrase originale n'a pas besoin d'apparaître
Révisez le contenu, sans changer le sens original, la langue doit être réécrit en chinois, et la phrase originale n'a pas besoin d'apparaître
Recommandé | 51CTO Technology Stack (WeChat ID: blog51cto)
Pictures
En raison de l'émergence d'une nouvelle technologie appelée Latent Consistency Model (LCM), l'IA va inaugurer la transformation du texte en Une avancée majeure dans le domaine graphique. Les méthodes traditionnelles telles que les modèles de diffusion latente (MLD) fonctionnent bien pour générer des images détaillées et créatives à l'aide d'indices textuels, mais leur inconvénient fatal est leur lenteur. Générer une seule image à l'aide de LDM peut nécessiter des centaines d'étapes, ce qui est tout simplement trop lent pour de nombreuses applications pratiques
Réécrit en chinois : LCM change la donne en réduisant le nombre d'étapes nécessaires pour générer une image. Comparé au LDM, qui nécessite des centaines d’étapes pour générer minutieusement des images, le LCM peut produire des résultats de qualité similaire en seulement 1 à 4 étapes. Pour atteindre cette efficacité, LCM affine le LDM pré-entraîné sous une forme plus concise, réduisant ainsi considérablement les ressources et le temps de calcul requis. Nous analyserons un article récent sur le fonctionnement du modèle LDM
L'article présente également une innovation appelée LCM-LoRA, un module d'accélération de diffusion stable à usage général. Ce module peut être branché sur divers modèles affinés Stable--Diffusion sans aucune formation supplémentaire. Il s’agit d’un outil universellement applicable qui peut accélérer diverses tâches de génération d’images, ce qui en fait un outil potentiel pour exploiter l’IA pour créer des images. Nous décortiquerons également cette partie du document.
Dans le domaine des réseaux de neurones, il existe un défi énorme, qui nécessite une énorme puissance de calcul, en particulier lors de la formation de réseaux de neurones avec des équations complexes. Cependant, l'équipe à l'origine de cet article a réussi à résoudre ce problème en utilisant une méthode ingénieuse appelée raffinement
Contenu réécrit : La méthode de l'équipe de recherche était la suivante : Tout d'abord, ils ont utilisé un ensemble de données d'appariement texte-image pour former un modèle de diffusion latente standard ( LDM). Une fois le LDM opérationnel, ils l’utilisent comme mentor, générant de nouvelles données de formation. Ils ont ensuite utilisé ces nouvelles données pour former un modèle de cohérence latente (LCM). La chose la plus intéressante est que LCM peut apprendre des capacités de LDM sans avoir à s'entraîner à partir de zéro avec d'énormes ensembles de données
Ce qui compte vraiment, c'est l'efficacité de ce processus. Les chercheurs ont terminé la formation d’un LCM de haute qualité en 32 heures environ en utilisant un seul GPU. Ceci est important car c’est beaucoup plus rapide et plus pratique que les méthodes précédentes. Cela signifie que davantage de personnes et de projets peuvent désormais créer de tels modèles avancés, plutôt que uniquement ceux ayant accès aux ressources de calcul intensif.
Figure 1, aperçu LCM-LoRA
En introduisant LoRA dans le processus d'extraction LCM, nous réduisons considérablement la surcharge de mémoire de l'extraction, ce qui nous permet de former des ensembles de données plus volumineux avec des ressources limitées telles que des modèles. SDXL et SSD-1B. Plus important encore, les paramètres LoRA (« vecteurs d'accélération ») obtenus par la formation LCM-LoRA peuvent être directement combinés avec d'autres paramètres LoRA (« vecteurs de style ») obtenus en affinant un ensemble de données pour un style spécifique. Sans aucune formation, le modèle obtenu par la combinaison linéaire du vecteur d'accélération et du vecteur de style acquiert la capacité de générer des images d'un style de peinture spécifique avec un minimum d'étapes d'échantillonnage.
Cette étude démontre des progrès significatifs dans l'utilisation de l'IA pour générer des images basées sur un modèle de cohérence latente (LCM). LCM excelle dans la création d'images 512 x 512 de haute qualité en seulement quatre étapes, une amélioration significative par rapport aux centaines d'étapes requises par les modèles traditionnels tels que les modèles de diffusion latente (MLD). Les images présentent des détails nets et des textures réalistes, ce qui est particulièrement évident dans les exemples ci-dessous.
Photos
Figure 2. L'article affirme : "Images générées à l'aide de modèles de cohérence latente extraits de différents modèles de diffusion pré-entraînés. Nous utilisons LCM-LoRA-SD-V1.5 pour générer une résolution de 512 × 512 images, utilisez LCM-LoRA-SDXL et LCM-LoRA-SSD-1B pour générer des images de résolution 1024×1024 »
Ces modèles gèrent non seulement facilement des images plus petites, mais sont également efficaces pour générer des images plus grandes. Ils démontrent une capacité à s’adapter à des modèles de réseaux neuronaux beaucoup plus grands que ce qui était auparavant possible, démontrant ainsi leur adaptabilité. Dans les exemples de l'article (tels que les exemples des versions LCM-LoRA-SD-V1.5 et LCM-LoRA-SSD-1B), la large applicabilité du modèle dans divers ensembles de données et scénarios pratiques est clarifiée
La version actuelle de LCM présente plusieurs limitations. La chose la plus importante est le processus de formation en deux étapes : d'abord former le LDM, puis l'utiliser pour former le LCM. Dans des recherches futures, une méthode plus directe de formation LDM pourrait être explorée, dans laquelle le LDM pourrait ne pas être nécessaire. L'article traite principalement de la génération d'images inconditionnelles, les tâches de génération conditionnelle (telles que la synthèse texte-image) peuvent nécessiter plus de travail.
Le modèle de cohérence latente (LCM) a franchi une étape importante dans la génération rapide d'images de haute qualité. Ces modèles peuvent produire des résultats comparables à ceux des LDM plus lents en seulement 1 à 4 étapes, révolutionnant potentiellement l'application pratique des modèles texte-image. Bien qu'il existe actuellement certaines limites, notamment en termes de processus de formation et d'étendue de la tâche de génération, le LCM marque une avancée significative dans la génération pratique d'images basées sur les réseaux de neurones. Les exemples fournis mettent en évidence le potentiel de ces modèles
Comme mentionné dans l'introduction, l'article est divisé en deux parties. La deuxième partie traite de la technologie LCM-LoRA, capable d'affiner les modèles pré-entraînés en utilisant moins de mémoire, améliorant ainsi l'efficacité
L'innovation clé ici est d'intégrer les paramètres LoRA dans LCM, générant ainsi une génération qui combine les avantages des deux modèles hybrides. Cette intégration est particulièrement utile pour créer des images d'un style spécifique ou répondre à une tâche spécifique. Si différents ensembles de paramètres LoRA sont sélectionnés et combinés, chacun étant affiné pour un style unique, les chercheurs ont créé un modèle polyvalent capable de générer des images avec un minimum d'étapes et sans formation supplémentaire.
Ils l'ont démontré dans leurs recherches à travers l'exemple de la combinaison de paramètres LoRA affinés pour des styles de peinture spécifiques avec des paramètres LCM-LoRA. Cette combinaison permet la création d'images de résolution 1 024 × 1 024 avec différents styles à différentes étapes d'échantillonnage (telles que 2 étapes, 4 étapes, 8 étapes, 16 étapes et 32 étapes). Les résultats montrent que ces paramètres combinés peuvent produire des images de haute qualité sans formation supplémentaire, soulignant l'efficacité et la polyvalence de ce modèle.
Une chose à noter ici est l'utilisation de ce que l'on appelle les « vecteurs d'accélération » (τLCM). et « vecteur de style » (τ), les deux sont combinés à l'aide de formules mathématiques spécifiques (λ1 et λ2 sont des facteurs ajustables dans ces formules). Cette combinaison donne naissance à un modèle capable de générer rapidement des images personnalisées.
La figure 3 de l'article (ci-dessous) démontre l'efficacité de cette approche en montrant les résultats d'un style spécifique de paramètres LoRA combinés avec les paramètres LCM-LoRA. Cela démontre la capacité du modèle à générer rapidement et efficacement des images avec différents styles.
Figure 3
Dans l'ensemble, cette partie de l'article met en évidence la polyvalence et l'efficacité du modèle LCM-LoRA, qui peut être utilisé pour générer rapidement des images de style spécifique de haute qualité, tout en en utilisant seulement quelques ressources informatiques. La technologie a un large éventail d'applications et devrait révolutionner la façon dont les images sont générées dans des domaines allant de l'art numérique à la création automatisée de contenu
Nous avons étudié une nouvelle approche, le modèle de cohérence latente (LCM) ), utilisé pour accélérer le processus de génération d’images à partir de texte. Contrairement aux modèles de diffusion latente (MLD) traditionnels, le LCM peut générer des images de qualité similaire en seulement 1 à 4 étapes au lieu de centaines d'étapes. Cette amélioration significative de l'efficacité est obtenue grâce à la méthode de raffinement, qui utilise LDM pré-entraîné pour entraîner LCM, évitant ainsi une grande quantité de calculs
De plus, nous avons également étudié LCM-LoRA, qui est une méthode qui utilise de faibles Rank Technique d'augmentation adaptative (LoRA) qui affine les modèles pré-entraînés pour réduire les besoins en mémoire. Cette méthode d'ensemble peut créer des styles d'images spécifiques avec un minimum d'étapes de calcul sans nécessiter de formation supplémentaire.
Les principaux résultats mis en évidence incluent la capacité de LCM à créer des images 512 x 512 et 1 024 x 1 024 de haute qualité en quelques étapes seulement, tandis que LDM nécessite des centaines d'étapes. Cependant, la limitation actuelle est que LDM repose sur un processus de formation en deux étapes, vous avez donc toujours besoin de LDM pour commencer ! Des recherches futures pourraient simplifier ce processus.
LCM est une innovation très intelligente surtout lorsqu'elle est combinée avec LoRA dans le modèle LCM-LoRA proposé. Ils offrent l’avantage de créer des images de haute qualité plus rapidement et plus efficacement, et je pense qu’ils ont de larges perspectives d’application dans la création de contenu numérique.
Lien de référence : https://notes.aimodels.fyi/lcm-lora-a-new-method-for-generating-high-quality-images-much-faster/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!