


Le modèle le plus rapide à une résolution de 1024, le modèle ouvert SDXL-Lightning graphique ByteDance Vincent est sorti
Modèle|https://www.php.cn/link/36ef259d4d9967f3a81aa326160128c7
Papier|https://www.php.cn/link/ca0525bfe5cab4c577 d1 69d3343a5452
1. Génération d'images ultra-rapide
L'IA générative attire l'attention mondiale pour sa capacité à créer des images époustouflantes et même des vidéos basées sur des invites textuelles. Les modèles génératifs de pointe actuels reposent sur la diffusion, un processus itératif qui transforme progressivement le bruit en échantillons d'images. Ce processus nécessite d'énormes ressources informatiques et est lent. Lors du processus de génération d'échantillons d'images de haute qualité, le temps de traitement d'une seule image est d'environ 5 secondes, ce qui nécessite généralement plusieurs appels (20 à 40 fois) à l'immense réseau neuronal. Réseau . Cette vitesse limite les scénarios d’application qui nécessitent une génération rapide en temps réel. Comment améliorer la qualité de la génération tout en accélérant est un domaine brûlant de la recherche actuelle et l'objectif principal de notre travail.
SDXL-Lightning franchit cette barrière grâce à une technologie innovante -Distillation contradictoire progressive - pour atteindre des vitesses de génération sans précédent. Le modèle est capable de générer des images d’une qualité et d’une résolution extrêmement élevées en seulement 2 ou 4 étapes, réduisant ainsi le coût et le temps de calcul d’un facteur dix. Notre méthode peut même générer des images en une seule étape pour les applications sensibles au délai d'attente, bien qu'avec un léger sacrifice en qualité.
SDXL-Lightning a non seulement un avantage en termes de vitesse, mais excelle également en qualité d'image, surpassant les technologies d'accélération précédentes dans les évaluations. Il permet une résolution plus élevée et des détails plus riches tout en conservant une bonne diversité et une bonne correspondance image-texte.Comparaison de vitesse
Modèle original (20 étapes), modèle SDXL-Lightning (2 étapes)
SDXL-Lightning Le modèle peut passer. 1 étape, 2 étapes, 4 étapes et 8 étapes pour générer des images. Plus il y a d’étapes d’inférence, meilleure est la qualité de l’image.
Ce qui suit est le résultat de 4 étapes -
Un gros plan d'une dame asiatique avec des lunettes de soleil
Un panda nageant
Maison dans le désert, paysages surréalistes
Ce qui suit est le résultat de 2 étapes -
Conception de meubles pour un salon
Une photo cinématographique d'un bébé raton laveur portant une robe de prêtre italienne complexe
Un chien à la fourrure douce et aux yeux brillants sautant après un jouet, dans un salon confortable
Une tasse de thé contenant des nuages
Une famille, plan moyen
🎙 Par rapport aux méthodes précédentes (Turbo et LCM), les images générées par notre méthode sont considérablement améliorées en détail et plus fidèles au style et à la disposition du modèle génératif original.
La vague de l'open source et de l'open source est devenue une force clé dans la promotion du développement rapide de l'intelligence artificielle, et Bytedance est fier de faire partie de cette vague. Notre modèle est basé sur SDXL, actuellement le modèle ouvert le plus populaire pour la génération d'images de texte, qui dispose déjà d'un écosystème florissant. Nous avons désormais décidé d'ouvrir SDXL-Lightning aux développeurs, chercheurs et créateurs du monde entier afin qu'ils puissent accéder à ce modèle et l'appliquer afin de stimuler davantage l'innovation et la collaboration dans l'ensemble du secteur.
Lors de la conception de SDXL-Lightning, nous avons pris en compte la
compatibilité avec la communauté des modèles ouverts. De nombreux artistes et développeurs de la communauté ont créé une variété de modèles de génération d'images stylisées, tels que les styles de dessins animés et d'anime. Afin de prendre en charge ces modèles, nous fournissons SDXL-Lightning en tant que plug-in d'accélération, qui peut être intégré de manière transparente dans ces différents styles de modèles SDXL afin d'accélérer la génération d'images pour différents modèles.
Le modèle peut également être combiné avec le plug-in de contrôle actuellement très populaire ControlNet pour obtenir une génération d'images extrêmement rapide et contrôlable.
SDXL-Lightning
Le modèle prend également en charge ComfyUI, le logiciel de génération le plus populaire dans la communauté open source. Le modèle peut être chargé directement pour être utilisé :.
4. À propos des détails techniques
Théoriquement, la génération d'images est un processus de transformation progressive du bruit vers des images claires. Au cours de ce processus, le réseau neuronal apprend les gradients à différentes positions du flux de transformation.
Les étapes spécifiques pour générer une image sont les suivantes :
Tout d'abord, nous échantillonnons au hasard un échantillon de bruit au point de départ du flux, puis utilisons un réseau de neurones pour calculer le gradient. En fonction du gradient à la position actuelle, nous apportons de petits ajustements à l'échantillon, puis répétons le processus. À chaque itération, les échantillons se rapprochent de la distribution finale de l’image jusqu’à obtenir une image claire.
Photo : Processus de flux de génération (photo de : https://www.php.cn/link/5c9b5c47258cf1499c2dc64b7072e735
En raison de complexité et non-linéarité du flux de génération Ligne droite, le processus de génération doit être une seule fois. Ne faites qu'un petit pas pour réduire l'accumulation d'erreurs de gradient, des calculs fréquents du réseau neuronal sont donc nécessaires, c'est pourquoi la quantité de calcul est importante
Image : Processus de courbe (Photo de : https://www.php.cn/link/d7bbb6396ce5daf19ec6cf4bb4453137
Afin de réduire le nombre d'étapes nécessaires pour générer des images, de nombreuses études ont été consacrées à la recherche de solutions. Certaines études ont proposé des méthodes d'échantillonnage qui peuvent réduire l'erreur, tandis que d'autres ont essayé de rendre la génération plus linéaire. Bien que ces méthodes aient progressé, elles nécessitent encore plus de 10 étapes d'inférence pour générer des images.
Une autre méthode est la distillation du modèle. qui est capable de générer des images de haute qualité en moins de 10 étapes d'inférence. Différente du calcul du gradient sous la position d'écoulement actuelle, la distillation du modèle modifie l'objectif de la prédiction du modèle pour prédire directement la position d'écoulement la plus éloignée. réseau d'étudiants pour prédire directement le réseau d'enseignants après avoir obtenu des résultats d'inférence en plusieurs étapes. Une telle stratégie peut réduire considérablement le nombre d'étapes d'inférence requises. En appliquant ce processus à plusieurs reprises, nous pouvons réduire davantage le nombre d'étapes d'inférence. distillation progressive.
Figure : Distillation progressive, le réseau d'étudiants prédit les résultats du réseau d'enseignants après plusieurs étapesEn fonctionnement réel, il est souvent difficile pour le réseau d'étudiants de prédire avec précision la position future du flux, ce qui provoque la erreur à amplifier avec l'accumulation de chaque étape. Avec moins de 8 étapes d'inférence, les images produites par le modèle commencent à devenir floues
Pour résoudre ce problème, notre stratégie n'est pas de forcer le réseau étudiant à correspondre avec précision aux prédictions. du réseau d'enseignants, mais pour laisser le réseau d'étudiants correspondre aux prédictions du réseau d'enseignants de manière probabiliste, cohérente avec le réseau d'enseignants. En d'autres termes, le réseau d'étudiants est formé pour prédire une position probable, et nous ne le pénalisons même pas. si cette position n'est pas tout à fait exacte. Cet objectif est atteint grâce à une formation contradictoire. Un réseau discriminant supplémentaire est introduit pour aider à réaliser une correspondance de distribution des résultats du réseau d'étudiants et d'enseignants.
Papier : https://www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

L'article passe en revue les meilleurs générateurs d'art AI, discutant de leurs fonctionnalités, de leur aptitude aux projets créatifs et de la valeur. Il met en évidence MidJourney comme la meilleure valeur pour les professionnels et recommande Dall-E 2 pour un art personnalisable de haute qualité.

META'S LLAMA 3.2: un bond en avant dans l'IA multimodal et mobile Meta a récemment dévoilé Llama 3.2, une progression importante de l'IA avec de puissantes capacités de vision et des modèles de texte légers optimisés pour les appareils mobiles. S'appuyer sur le succès o

L'article compare les meilleurs chatbots d'IA comme Chatgpt, Gemini et Claude, en se concentrant sur leurs fonctionnalités uniques, leurs options de personnalisation et leurs performances dans le traitement et la fiabilité du langage naturel.

Chatgpt 4 est actuellement disponible et largement utilisé, démontrant des améliorations significatives dans la compréhension du contexte et la génération de réponses cohérentes par rapport à ses prédécesseurs comme Chatgpt 3.5. Les développements futurs peuvent inclure un interg plus personnalisé

L'article traite des meilleurs assistants d'écriture d'IA comme Grammarly, Jasper, Copy.ai, WireSonic et Rytr, en se concentrant sur leurs fonctionnalités uniques pour la création de contenu. Il soutient que Jasper excelle dans l'optimisation du référencement, tandis que les outils d'IA aident à maintenir le ton

2024 a été témoin d'un simple passage de l'utilisation des LLM pour la génération de contenu pour comprendre leur fonctionnement intérieur. Cette exploration a conduit à la découverte des agents de l'IA - les systèmes autonomes manipulant des tâches et des décisions avec une intervention humaine minimale. Construire

Le paysage de l'IA de cette semaine: un tourbillon de progrès, de considérations éthiques et de débats réglementaires. Les principaux acteurs comme Openai, Google, Meta et Microsoft ont déclenché un torrent de mises à jour, des nouveaux modèles révolutionnaires aux changements cruciaux de LE

La récente note du PDG de Shopify Tobi Lütke déclare hardiment la maîtrise de l'IA une attente fondamentale pour chaque employé, marquant un changement culturel important au sein de l'entreprise. Ce n'est pas une tendance éphémère; C'est un nouveau paradigme opérationnel intégré à P
