Stable Diffusion XL Turbo (SDXL Turbo) crée des images détaillées à des vitesses étonnantes, même à la maison.
Mardi, la société Stability AI a publié un modèle de synthèse d'images d'intelligence artificielle appelé "Stable Diffusion XL Turbo". Le modèle est capable de générer rapidement des images basées sur des invites écrites. En fait, le modèle est si rapide que l'entreprise le présente comme un générateur d'images « en temps réel », car il est également capable de convertir rapidement des images provenant de sources telles que les webcams
La principale innovation de SDXL Turbo est sa capacité à produire une sortie d'image en une seule étape, nettement moins que les 20 à 50 étapes requises par son prédécesseur. Stability AI attribue ce gain d’efficacité à une technique appelée distillation par diffusion contradictoire (ADD). ADD utilise l'extraction fractionnée, où le modèle apprend des modèles de synthèse d'images existants, et la perte contradictoire, qui améliore la capacité du modèle à différencier les images réelles et générées, améliorant ainsi l'authenticité de la sortie.
Dans un document de recherche publié mardi portant sur la technologie ADD, Stability AI détaille le fonctionnement interne du modèle. L'un des avantages de SDXL Turbo est sa similitude avec les réseaux contradictoires génératifs (GAN), notamment dans la production de sorties d'images en une seule étape.
Les images du SDXL Turbo ne sont pas aussi détaillées que celles produites par SDXL à des résolutions plus élevées, il ne s'agit donc pas d'un remplacement complet du modèle précédent. Cependant, il fait gagner du temps grâce à sa vitesse incroyable
Pour l'essayer, nous avons exécuté SDXL Turbo de manière native sur un Nvidia RTX 3060 en utilisant Automatic111 (avec les mêmes poids supprimés que les poids SDXL), et il a produit une image 1024×1024 en 3 étapes en 4 secondes environ, contre 20 étapes. Image SDXL avec des détails similaires Cela prend 26,4 secondes. Les images plus petites sont générées beaucoup plus rapidement (moins de 1 seconde pour 512 × 768), et bien sûr, des cartes graphiques plus puissantes, comme un RTX 3090 ou 4090, permettront également des temps de génération plus rapides. Contrairement au marketing de Stability, nous avons constaté que les images SDXL Turbo présentent les meilleurs détails, soit environ 3 à 5 étapes par image.
La vitesse de génération de SDXL Turbo est dite « en temps réel ». Stability AI indique que sur un NVIDIA A100, un puissant processeur graphique optimisé par l'IA, le modèle peut générer une image 512 × 512 en 207 ms, y compris l'encodage, une seule étape de débruitage et le décodage. Si les problèmes de cohérence peuvent être résolus, de telles vitesses pourraient conduire à la génération en temps réel de filtres vidéo IA ou à la génération expérimentale d’images de jeux vidéo. Dans ce cas, la cohérence signifie conserver le même thème sur plusieurs cadres ou générations.
Actuellement, SDXL Turbo est fourni sous une licence de recherche non commerciale, limitant son utilisation à des fins personnelles et non commerciales. Cette décision a déjà reçu quelques critiques au sein de la communauté Stable Diffusion, mais Stability AI se dit ouverte aux applications commerciales et invite les parties intéressées à nous contacter pour plus d'informations.
Pendant ce temps, Stability AI est confrontée à des problèmes de gestion interne, un investisseur ayant récemment exhorté le PDG Emad Mostaque à démissionner. La direction de Stability AI aurait exploré la possibilité de vendre l'entreprise à une entité plus grande, mais cela n'a pas affecté le rythme auquel Stability AI lance de nouveaux produits. La semaine dernière, la société a lancé un logiciel appelé Stable Video Diffusion qui convertit les images fixes en courts clips vidéo
Stability AI a fourni une démo bêta de sa fonctionnalité SDXL Turbo sur sa plateforme d'édition d'images Clipdrop. Vous pouvez également essayer gratuitement une démo en direct non officielle sur Hugging Face. Évidemment, toutes les mises en garde habituelles s'appliquent, y compris le manque de provenance des données de formation et le risque d'utilisation abusive. Même avec ces questions sans réponse, les progrès technologiques en matière de synthèse d’images par l’IA ne ralentissent certainement pas.
Si vos amis l'aiment, suivez « Savoir quoi de neuf » !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!