Table des matières
1. Génération d'images ultra-rapide
SDXL-Lightning
4. À propos des détails techniques
Maison Périphériques technologiques IA Le modèle le plus rapide à une résolution de 1024, le modèle ouvert SDXL-Lightning graphique ByteDance Vincent est sorti

Le modèle le plus rapide à une résolution de 1024, le modèle ouvert SDXL-Lightning graphique ByteDance Vincent est sorti

Feb 24, 2024 pm 12:37 PM
IA générative

Modèle|https://www.php.cn/link/36ef259d4d9967f3a81aa326160128c7

Papier|https://www.php.cn/link/ca0525bfe5cab4c577 d1 69d3343a5452

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布


1. Génération d'images ultra-rapide

L'IA générative attire l'attention mondiale pour sa capacité à créer des images époustouflantes et même des vidéos basées sur des invites textuelles. Les modèles génératifs de pointe actuels reposent sur la diffusion, un processus itératif qui transforme progressivement le bruit en échantillons d'images. Ce processus nécessite d'énormes ressources informatiques et est lent. Lors du processus de génération d'échantillons d'images de haute qualité, le temps de traitement d'une seule image est d'environ 5 secondes, ce qui nécessite généralement plusieurs appels (20 à 40 fois) à l'immense réseau neuronal. Réseau . Cette vitesse limite les scénarios d’application qui nécessitent une génération rapide en temps réel. Comment améliorer la qualité de la génération tout en accélérant est un domaine brûlant de la recherche actuelle et l'objectif principal de notre travail.

SDXL-Lightning franchit cette barrière grâce à une technologie innovante -

Distillation contradictoire progressive - pour atteindre des vitesses de génération sans précédent. Le modèle est capable de générer des images d’une qualité et d’une résolution extrêmement élevées en seulement 2 ou 4 étapes, réduisant ainsi le coût et le temps de calcul d’un facteur dix. Notre méthode peut même générer des images en une seule étape pour les applications sensibles au délai d'attente, bien qu'avec un léger sacrifice en qualité.

SDXL-Lightning a non seulement un avantage en termes de vitesse, mais excelle également en qualité d'image, surpassant les technologies d'accélération précédentes dans les évaluations. Il permet une résolution plus élevée et des détails plus riches tout en conservant une bonne diversité et une bonne correspondance image-texte.

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Comparaison de vitesse

Modèle original (20 étapes), modèle SDXL-Lightning (2 étapes)


2. Effet modèle

SDXL-Lightning Le modèle peut passer. 1 étape, 2 étapes, 4 étapes et 8 étapes pour générer des images. Plus il y a d’étapes d’inférence, meilleure est la qualité de l’image.

Ce qui suit est le résultat de 4 étapes -


1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Une fille souriante

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Une camionnette montant une montagne en lacets

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Un poisson sur un vélo, art coloré

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Un gros plan d'une dame asiatique avec des lunettes de soleil

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Une belle tasse

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Mona Lisa, croquis

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Un panda nageant

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Une camionnette montant un lacets de montagne

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Maison dans le désert, paysages surréalistes

Ce qui suit est le résultat de 2 étapes -

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Conception de meubles pour un salon

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Une photo cinématographique d'un bébé raton laveur portant une robe de prêtre italienne complexe

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Un chien à la fourrure douce et aux yeux brillants sautant après un jouet, dans un salon confortable

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Une tasse de thé contenant des nuages

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Une famille, plan moyen

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布🎙 Par rapport aux méthodes précédentes (Turbo et LCM), les images générées par notre méthode sont considérablement améliorées en détail et plus fidèles au style et à la disposition du modèle génératif original.

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

3. Redonnez à la communauté, modèle ouvert

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布La vague de l'open source et de l'open source est devenue une force clé dans la promotion du développement rapide de l'intelligence artificielle, et Bytedance est fier de faire partie de cette vague. Notre modèle est basé sur SDXL, actuellement le modèle ouvert le plus populaire pour la génération d'images de texte, qui dispose déjà d'un écosystème florissant. Nous avons désormais décidé d'ouvrir SDXL-Lightning aux développeurs, chercheurs et créateurs du monde entier afin qu'ils puissent accéder à ce modèle et l'appliquer afin de stimuler davantage l'innovation et la collaboration dans l'ensemble du secteur.

Lors de la conception de SDXL-Lightning, nous avons pris en compte la

compatibilité avec la communauté des modèles ouverts

. De nombreux artistes et développeurs de la communauté ont créé une variété de modèles de génération d'images stylisées, tels que les styles de dessins animés et d'anime. Afin de prendre en charge ces modèles, nous fournissons SDXL-Lightning en tant que plug-in d'accélération, qui peut être intégré de manière transparente dans ces différents styles de modèles SDXL afin d'accélérer la génération d'images pour différents modèles. 1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

SDXL-Lightning

Le modèle peut également être combiné avec le plug-in de contrôle actuellement très populaire ControlNet pour obtenir une génération d'images extrêmement rapide et contrôlable. 1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布


SDXL-Lightning

Le modèle prend également en charge ComfyUI, le logiciel de génération le plus populaire dans la communauté open source. Le modèle peut être chargé directement pour être utilisé :

.

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布


4. À propos des détails techniques

Théoriquement, la génération d'images est un processus de transformation progressive du bruit vers des images claires. Au cours de ce processus, le réseau neuronal apprend les gradients à différentes positions du flux de transformation.

Les étapes spécifiques pour générer une image sont les suivantes :

Tout d'abord, nous échantillonnons au hasard un échantillon de bruit au point de départ du flux, puis utilisons un réseau de neurones pour calculer le gradient. En fonction du gradient à la position actuelle, nous apportons de petits ajustements à l'échantillon, puis répétons le processus. À chaque itération, les échantillons se rapprochent de la distribution finale de l’image jusqu’à obtenir une image claire.

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Photo : Processus de flux de génération (photo de : https://www.php.cn/link/5c9b5c47258cf1499c2dc64b7072e735

En raison de complexité et non-linéarité du flux de génération Ligne droite, le processus de génération doit être une seule fois. Ne faites qu'un petit pas pour réduire l'accumulation d'erreurs de gradient, des calculs fréquents du réseau neuronal sont donc nécessaires, c'est pourquoi la quantité de calcul est importante

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Image : Processus de courbe (Photo de : https://www.php.cn/link/d7bbb6396ce5daf19ec6cf4bb4453137

Afin de réduire le nombre d'étapes nécessaires pour générer des images, de nombreuses études ont été consacrées à la recherche de solutions. Certaines études ont proposé des méthodes d'échantillonnage qui peuvent réduire l'erreur, tandis que d'autres ont essayé de rendre la génération plus linéaire. Bien que ces méthodes aient progressé, elles nécessitent encore plus de 10 étapes d'inférence pour générer des images.

Une autre méthode est la distillation du modèle. qui est capable de générer des images de haute qualité en moins de 10 étapes d'inférence. Différente du calcul du gradient sous la position d'écoulement actuelle, la distillation du modèle modifie l'objectif de la prédiction du modèle pour prédire directement la position d'écoulement la plus éloignée. réseau d'étudiants pour prédire directement le réseau d'enseignants après avoir obtenu des résultats d'inférence en plusieurs étapes. Une telle stratégie peut réduire considérablement le nombre d'étapes d'inférence requises. En appliquant ce processus à plusieurs reprises, nous pouvons réduire davantage le nombre d'étapes d'inférence. distillation progressive.

Figure : Distillation progressive, le réseau d'étudiants prédit les résultats du réseau d'enseignants après plusieurs étapes

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

En fonctionnement réel, il est souvent difficile pour le réseau d'étudiants de prédire avec précision la position future du flux, ce qui provoque la erreur à amplifier avec l'accumulation de chaque étape. Avec moins de 8 étapes d'inférence, les images produites par le modèle commencent à devenir floues

Pour résoudre ce problème, notre stratégie n'est pas de forcer le réseau étudiant à correspondre avec précision aux prédictions. du réseau d'enseignants, mais pour laisser le réseau d'étudiants correspondre aux prédictions du réseau d'enseignants de manière probabiliste, cohérente avec le réseau d'enseignants. En d'autres termes, le réseau d'étudiants est formé pour prédire une position probable, et nous ne le pénalisons même pas. si cette position n'est pas tout à fait exacte. Cet objectif est atteint grâce à une formation contradictoire. Un réseau discriminant supplémentaire est introduit pour aider à réaliser une correspondance de distribution des résultats du réseau d'étudiants et d'enseignants.

Ceci est un bref aperçu de nos méthodes de recherche (

https:/ /www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452), nous fournissons une analyse théorique plus approfondie, des stratégies de formation et des détails de formulation spécifiques du modèle

5 Au-delà de SDXL-Lightning

Bien que cette étude soit principalement. explore comment utiliser la technologie SDXL-Lightning pour la génération d'images. Mais le potentiel d'application de notre méthode de distillation contradictoire progressive proposée ne se limite pas aux images statiques. Cette technologie innovante peut également être appliquée à la génération rapide et de haute qualité de données vidéo, audio et. d'autres contenus multimodaux. Nous vous invitons sincèrement à découvrir SDXL-Lightning sur la plateforme HuggingFace et attendons avec impatience vos précieux commentaires et retours. Modèle :

https://www.php.cn/link/36ef259d4d9967f3a81aa326160128c7

Papier : https://www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Meilleurs générateurs d'art AI (gratuit & amp; payé) pour des projets créatifs Meilleurs générateurs d'art AI (gratuit & amp; payé) pour des projets créatifs Apr 02, 2025 pm 06:10 PM

L'article passe en revue les meilleurs générateurs d'art AI, discutant de leurs fonctionnalités, de leur aptitude aux projets créatifs et de la valeur. Il met en évidence MidJourney comme la meilleure valeur pour les professionnels et recommande Dall-E 2 pour un art personnalisable de haute qualité.

Début avec Meta Llama 3.2 - Analytics Vidhya Début avec Meta Llama 3.2 - Analytics Vidhya Apr 11, 2025 pm 12:04 PM

META'S LLAMA 3.2: un bond en avant dans l'IA multimodal et mobile Meta a récemment dévoilé Llama 3.2, une progression importante de l'IA avec de puissantes capacités de vision et des modèles de texte légers optimisés pour les appareils mobiles. S'appuyer sur le succès o

Meilleurs chatbots AI comparés (Chatgpt, Gemini, Claude & amp; plus) Meilleurs chatbots AI comparés (Chatgpt, Gemini, Claude & amp; plus) Apr 02, 2025 pm 06:09 PM

L'article compare les meilleurs chatbots d'IA comme Chatgpt, Gemini et Claude, en se concentrant sur leurs fonctionnalités uniques, leurs options de personnalisation et leurs performances dans le traitement et la fiabilité du langage naturel.

Chatgpt 4 o est-il disponible? Chatgpt 4 o est-il disponible? Mar 28, 2025 pm 05:29 PM

Chatgpt 4 est actuellement disponible et largement utilisé, démontrant des améliorations significatives dans la compréhension du contexte et la génération de réponses cohérentes par rapport à ses prédécesseurs comme Chatgpt 3.5. Les développements futurs peuvent inclure un interg plus personnalisé

Assistants d'écriture de l'IA pour augmenter votre création de contenu Assistants d'écriture de l'IA pour augmenter votre création de contenu Apr 02, 2025 pm 06:11 PM

L'article traite des meilleurs assistants d'écriture d'IA comme Grammarly, Jasper, Copy.ai, WireSonic et Rytr, en se concentrant sur leurs fonctionnalités uniques pour la création de contenu. Il soutient que Jasper excelle dans l'optimisation du référencement, tandis que les outils d'IA aident à maintenir le ton

Top 7 Système de chiffon agentique pour construire des agents d'IA Top 7 Système de chiffon agentique pour construire des agents d'IA Mar 31, 2025 pm 04:25 PM

2024 a été témoin d'un simple passage de l'utilisation des LLM pour la génération de contenu pour comprendre leur fonctionnement intérieur. Cette exploration a conduit à la découverte des agents de l'IA - les systèmes autonomes manipulant des tâches et des décisions avec une intervention humaine minimale. Construire

AV Bytes: Meta & # 039; S Llama 3.2, Google's Gemini 1.5, et plus AV Bytes: Meta & # 039; S Llama 3.2, Google's Gemini 1.5, et plus Apr 11, 2025 pm 12:01 PM

Le paysage de l'IA de cette semaine: un tourbillon de progrès, de considérations éthiques et de débats réglementaires. Les principaux acteurs comme Openai, Google, Meta et Microsoft ont déclenché un torrent de mises à jour, des nouveaux modèles révolutionnaires aux changements cruciaux de LE

Vendre une stratégie d'IA aux employés: le manifeste du PDG de Shopify Vendre une stratégie d'IA aux employés: le manifeste du PDG de Shopify Apr 10, 2025 am 11:19 AM

La récente note du PDG de Shopify Tobi Lütke déclare hardiment la maîtrise de l'IA une attente fondamentale pour chaque employé, marquant un changement culturel important au sein de l'entreprise. Ce n'est pas une tendance éphémère; C'est un nouveau paradigme opérationnel intégré à P

See all articles