Modèle|https://www.php.cn/link/36ef259d4d9967f3a81aa326160128c7
Papier|https://www.php.cn/link/ca0525bfe5cab4c577 d1 69d3343a5452
L'IA générative attire l'attention mondiale pour sa capacité à créer des images époustouflantes et même des vidéos basées sur des invites textuelles. Les modèles génératifs de pointe actuels reposent sur la diffusion, un processus itératif qui transforme progressivement le bruit en échantillons d'images. Ce processus nécessite d'énormes ressources informatiques et est lent. Lors du processus de génération d'échantillons d'images de haute qualité, le temps de traitement d'une seule image est d'environ 5 secondes, ce qui nécessite généralement plusieurs appels (20 à 40 fois) à l'immense réseau neuronal. Réseau . Cette vitesse limite les scénarios d’application qui nécessitent une génération rapide en temps réel. Comment améliorer la qualité de la génération tout en accélérant est un domaine brûlant de la recherche actuelle et l'objectif principal de notre travail.
SDXL-Lightning franchit cette barrière grâce à une technologie innovante -Distillation contradictoire progressive - pour atteindre des vitesses de génération sans précédent. Le modèle est capable de générer des images d’une qualité et d’une résolution extrêmement élevées en seulement 2 ou 4 étapes, réduisant ainsi le coût et le temps de calcul d’un facteur dix. Notre méthode peut même générer des images en une seule étape pour les applications sensibles au délai d'attente, bien qu'avec un léger sacrifice en qualité.
SDXL-Lightning a non seulement un avantage en termes de vitesse, mais excelle également en qualité d'image, surpassant les technologies d'accélération précédentes dans les évaluations. Il permet une résolution plus élevée et des détails plus riches tout en conservant une bonne diversité et une bonne correspondance image-texte.Comparaison de vitesse
Modèle original (20 étapes), modèle SDXL-Lightning (2 étapes)
SDXL-Lightning Le modèle peut passer. 1 étape, 2 étapes, 4 étapes et 8 étapes pour générer des images. Plus il y a d’étapes d’inférence, meilleure est la qualité de l’image.
Ce qui suit est le résultat de 4 étapes -
Un poisson sur un vélo, art coloré
Un gros plan d'une dame asiatique avec des lunettes de soleil
Une belle tasse Mona Lisa, croquisUn panda nageant
Une camionnette montant un lacets de montagne
Maison dans le désert, paysages surréalistes
Ce qui suit est le résultat de 2 étapes -
Conception de meubles pour un salon
Une photo cinématographique d'un bébé raton laveur portant une robe de prêtre italienne complexe
Un chien à la fourrure douce et aux yeux brillants sautant après un jouet, dans un salon confortable
Une tasse de thé contenant des nuages
Une famille, plan moyen
🎙 Par rapport aux méthodes précédentes (Turbo et LCM), les images générées par notre méthode sont considérablement améliorées en détail et plus fidèles au style et à la disposition du modèle génératif original.
3. Redonnez à la communauté, modèle ouvertLa vague de l'open source et de l'open source est devenue une force clé dans la promotion du développement rapide de l'intelligence artificielle, et Bytedance est fier de faire partie de cette vague. Notre modèle est basé sur SDXL, actuellement le modèle ouvert le plus populaire pour la génération d'images de texte, qui dispose déjà d'un écosystème florissant. Nous avons désormais décidé d'ouvrir SDXL-Lightning aux développeurs, chercheurs et créateurs du monde entier afin qu'ils puissent accéder à ce modèle et l'appliquer afin de stimuler davantage l'innovation et la collaboration dans l'ensemble du secteur.
Lors de la conception de SDXL-Lightning, nous avons pris en compte la
compatibilité avec la communauté des modèles ouverts. De nombreux artistes et développeurs de la communauté ont créé une variété de modèles de génération d'images stylisées, tels que les styles de dessins animés et d'anime. Afin de prendre en charge ces modèles, nous fournissons SDXL-Lightning en tant que plug-in d'accélération, qui peut être intégré de manière transparente dans ces différents styles de modèles SDXL afin d'accélérer la génération d'images pour différents modèles.
SDXL-LightningLe modèle peut également être combiné avec le plug-in de contrôle actuellement très populaire ControlNet pour obtenir une génération d'images extrêmement rapide et contrôlable.
.
Théoriquement, la génération d'images est un processus de transformation progressive du bruit vers des images claires. Au cours de ce processus, le réseau neuronal apprend les gradients à différentes positions du flux de transformation.
Les étapes spécifiques pour générer une image sont les suivantes :
Tout d'abord, nous échantillonnons au hasard un échantillon de bruit au point de départ du flux, puis utilisons un réseau de neurones pour calculer le gradient. En fonction du gradient à la position actuelle, nous apportons de petits ajustements à l'échantillon, puis répétons le processus. À chaque itération, les échantillons se rapprochent de la distribution finale de l’image jusqu’à obtenir une image claire.
Photo : Processus de flux de génération (photo de : https://www.php.cn/link/5c9b5c47258cf1499c2dc64b7072e735
En raison de complexité et non-linéarité du flux de génération Ligne droite, le processus de génération doit être une seule fois. Ne faites qu'un petit pas pour réduire l'accumulation d'erreurs de gradient, des calculs fréquents du réseau neuronal sont donc nécessaires, c'est pourquoi la quantité de calcul est importante
Image : Processus de courbe (Photo de : https://www.php.cn/link/d7bbb6396ce5daf19ec6cf4bb4453137
Afin de réduire le nombre d'étapes nécessaires pour générer des images, de nombreuses études ont été consacrées à la recherche de solutions. Certaines études ont proposé des méthodes d'échantillonnage qui peuvent réduire l'erreur, tandis que d'autres ont essayé de rendre la génération plus linéaire. Bien que ces méthodes aient progressé, elles nécessitent encore plus de 10 étapes d'inférence pour générer des images.
Une autre méthode est la distillation du modèle. qui est capable de générer des images de haute qualité en moins de 10 étapes d'inférence. Différente du calcul du gradient sous la position d'écoulement actuelle, la distillation du modèle modifie l'objectif de la prédiction du modèle pour prédire directement la position d'écoulement la plus éloignée. réseau d'étudiants pour prédire directement le réseau d'enseignants après avoir obtenu des résultats d'inférence en plusieurs étapes. Une telle stratégie peut réduire considérablement le nombre d'étapes d'inférence requises. En appliquant ce processus à plusieurs reprises, nous pouvons réduire davantage le nombre d'étapes d'inférence. distillation progressive.
Figure : Distillation progressive, le réseau d'étudiants prédit les résultats du réseau d'enseignants après plusieurs étapesEn fonctionnement réel, il est souvent difficile pour le réseau d'étudiants de prédire avec précision la position future du flux, ce qui provoque la erreur à amplifier avec l'accumulation de chaque étape. Avec moins de 8 étapes d'inférence, les images produites par le modèle commencent à devenir floues
Pour résoudre ce problème, notre stratégie n'est pas de forcer le réseau étudiant à correspondre avec précision aux prédictions. du réseau d'enseignants, mais pour laisser le réseau d'étudiants correspondre aux prédictions du réseau d'enseignants de manière probabiliste, cohérente avec le réseau d'enseignants. En d'autres termes, le réseau d'étudiants est formé pour prédire une position probable, et nous ne le pénalisons même pas. si cette position n'est pas tout à fait exacte. Cet objectif est atteint grâce à une formation contradictoire. Un réseau discriminant supplémentaire est introduit pour aider à réaliser une correspondance de distribution des résultats du réseau d'étudiants et d'enseignants.
Papier : https://www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!