Maison > Périphériques technologiques > IA > le corps du texte

SDXL Turbo et LCM ouvrent l'ère de la génération en temps réel de dessins IA : aussi rapides que la saisie, et les images apparaissent instantanément

PHPz
Libérer: 2023-11-30 14:14:50
avant
1404 Les gens l'ont consulté

Stability AI a lancé mardi une nouvelle génération de modèle de synthèse d'image - Stable Diffusion XL Turbo, qui a suscité une réponse enthousiaste de la part du public. De nombreuses personnes ont dit qu'utiliser ce modèle pour la génération d'image en texte n'a jamais été aussi simple

Entrez vos idées dans la zone de saisie, SDXL Turbo répondra rapidement et générera le contenu correspondant sans aucune autre opération. Peu importe que vous saisissiez plus ou moins de contenu, cela n'affectera pas sa vitesse

SDXL Turbo和LCM带来AI画图的实时生成时代:速度跟打字一样快,图像瞬间呈现

SDXL Turbo和LCM带来AI画图的实时生成时代:速度跟打字一样快,图像瞬间呈现

Vous pouvez utiliser des images existantes pour compléter votre création plus en détail. Prenez simplement un morceau de papier blanc et dites à SDXL Turbo que vous voulez un chat blanc. Avant de finir de taper, le petit chat blanc est déjà apparu entre vos mains

SDXL Turbo和LCM带来AI画图的实时生成时代:速度跟打字一样快,图像瞬间呈现

La vitesse du modèle SDXL Turbo atteint C'est. presque « en temps réel », et les gens ne peuvent s'empêcher de se demander : le modèle de génération d'images peut-il être utilisé à d'autres fins ? Quelqu'un directement connecté au jeu et ayant obtenu un écran de transfert de style 2fps :

D'après le officiel Selon le blog, sur l'A100, SDXL Turbo peut générer une image 512x512 en 207 millisecondes (codage à la volée + étape de débruitage unique + décodage, fp16), dont une seule évaluation directe UNet prend 67 millisecondes. SDXL Turbo和LCM带来AI画图的实时生成时代:速度跟打字一样快,图像瞬间呈现

On peut ainsi juger que Vincent Picture est entré dans l'ère du "temps réel".

Une telle efficacité de « génération instantanée » ressemble quelque peu au modèle Tsinghua LCM qui est devenu populaire il n'y a pas si longtemps, mais le contenu technique derrière eux est différent. Stability a détaillé le fonctionnement interne du modèle dans un document de recherche publié au même moment. La recherche se concentre sur une technologie appelée Distillation par diffusion contradictoire (ADD). L'un des avantages revendiqués de SDXL Turbo est sa similitude avec les réseaux contradictoires génératifs (GAN), en particulier dans la génération de sorties d'images en une seule étape.

Adresse papier : https://static1.squarespace.com/static/6213c340453c3f502425776e/t/65663480a92fba51d0e1023f/1701197769659/adversarial_diffusion_distillation. pdf SDXL Turbo和LCM带来AI画图的实时生成时代:速度跟打字一样快,图像瞬间呈现

Détails papier

En bref, la distillation par diffusion contradictoire est une méthode générale qui peut réduire le nombre d'étapes d'inférence d'un modèle de diffusion pré-entraîné à 1 à 4 étapes d'échantillonnage tout en maintenant une fidélité d'échantillonnage élevée et en améliorant potentiellement encore les performances globales du modèle.

À cette fin, les chercheurs ont introduit une combinaison de deux objectifs de formation : (i) la perte contradictoire et (ii) la perte de distillation correspondant au SDS. La perte contradictoire oblige le modèle à générer directement des échantillons qui se trouvent sur le collecteur d’images réelles à chaque passage avant, évitant ainsi le flou et d’autres artefacts courants dans d’autres méthodes de distillation. La perte de distillation utilise un autre modèle de diffusion pré-entraîné (et fixe) comme enseignant, exploitant efficacement ses connaissances approfondies et conservant la forte compositionnalité observée dans les grands modèles de diffusion. Au cours du processus d’inférence, les chercheurs n’ont pas utilisé de guidage sans classificateur, réduisant ainsi les besoins en mémoire. Ils conservent la capacité du modèle à améliorer les résultats grâce à un raffinement itératif, un avantage par rapport aux précédentes approches basées sur le GAN en une seule étape.

Les étapes de formation sont présentées dans la figure 2 :

Le tableau 1 montre les résultats de l'expérience d'ablation. Voici les principales conclusions : SDXL Turbo和LCM带来AI画图的实时生成时代:速度跟打字一样快,图像瞬间呈现

.

Ce qui suit est une comparaison avec d'autres modèles SOTA. Ici, les chercheurs n'ont pas utilisé d'indicateurs automatisés, mais ont choisi une méthode d'évaluation des préférences des utilisateurs plus fiable, l'objectif étant d'évaluer la conformité rapide et l'image globale.

Pour comparer plusieurs variantes de modèles différentes (StyleGAN-T++, OpenMUSE, IF-XL, SDXL et LCM-XL), l'expérience utilise la même invite pour générer la sortie. Lors de tests à l'aveugle, le SDXL Turbo a battu la configuration en 4 étapes du LCM-XL en une seule étape, et a battu la configuration en 50 étapes du SDXL en seulement 4 étapes. À partir de ces résultats, on peut voir que SDXL Turbo surpasse les modèles multi-étapes de pointe tout en réduisant considérablement les besoins de calcul sans sacrifier la qualité de l'image. tracé des scores

SDXL Turbo和LCM带来AI画图的实时生成时代:速度跟打字一样快,图像瞬间呈现

Dans le tableau 2, une comparaison de différentes méthodes d'échantillonnage et de distillation en quelques étapes utilisant le même modèle de base est effectuée. Les résultats montrent que la méthode ADD surpasse toutes les autres méthodes, y compris le solveur DPM standard en 8 étapes

SDXL Turbo和LCM带来AI画图的实时生成时代:速度跟打字一样快,图像瞬间呈现

En complément des résultats expérimentaux quantitatifs, l'article montre également des résultats expérimentaux qualitatifs, montrant ADD- Capacité de XL à améliorer les échantillons initiaux. La figure 3 compare ADD-XL (1 étape) avec la meilleure référence actuelle dans les schémas en quelques étapes. La figure 4 décrit le processus d'échantillonnage itératif d'ADD-XL. La figure 8 fournit une comparaison directe d'ADD-XL avec son modèle d'enseignant, SDXL-Base. Comme le montrent les études d'utilisateurs, ADD-XL surpasse le modèle enseignant en termes de qualité et d'alignement rapide.

SDXL Turbo和LCM带来AI画图的实时生成时代:速度跟打字一样快,图像瞬间呈现

SDXL Turbo和LCM带来AI画图的实时生成时代:速度跟打字一样快,图像瞬间呈现

SDXL Turbo和LCM带来AI画图的实时生成时代:速度跟打字一样快,图像瞬间呈现Pour plus de détails sur la recherche, veuillez vous référer à l'article original

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal