Stabilité AI a annoncé un aperçu précoce de la diffusion stable 3 en février 2024. Le modèle d'IA est toujours en avant-première, mais en avril 2024, l'équipe a annoncé qu'ils feraient une diffusion 3 stable et une API de plateforme de développement AI la plus rapide et la plus rapide de la plate-forme API la plus rapide et la plus fiable du marché.
Notez que la diffusion stable 3 est simplement une série de modèles d'IA génératifs du texte à l'image. Selon l'équipe de Stabilité AI, le modèle est"égal à ou surpasse" d'autres générateurs de texte à image, tels que Dall-E 3 et MidJourney V6 d'Openai, dans "Typographie et adhérence rapide".
Dans ce tutoriel, vous apprendrez des étapes pratiques pour commencer avec l'API afin que vous puissiez commencer à générer vos propres images.Pourquoi la diffusion stable 3?
Explorons ces progrès:
Cette section passera par les étapes pour commencer avec l'API de stabilité.
Étape 1: Créez votre compte. Vous devrez créer un compte avant de pouvoir utiliser l'API de stabilité AI. Vous pouvez vous inscrire à l'aide d'un nom d'utilisateur et d'un mot de passe, mais les nouveaux utilisateurs obtiennent 25 crédits gratuits pour s'inscrire à l'aide de leur compte Google.
Étape 2: Réclamez votre clé API. Une fois que vous avez créé votre compte, vous aurez besoin d'une API. Cela se trouve sur la page des clés API. Dans la documentation, la stabilité AI indique que «Toutes les API documentées sur ce site utilisent le même mécanisme d'authentification: passer la clé API dans l'en-tête d'autorisation.»
Étape 3: Crédits de dépression. Vous devez avoir des crédits pour demander l'API. Les crédits sont l'unité de devise consommée lors de l'appel de l'API - le montant consommé varie à l'autre et les modalités. Après avoir utilisé tous vos crédits, vous pouvez acheter plus via votre tableau de bord de facturation à 1 $ pour 100 crédits.
Dans ce didacticiel, nous utiliserons Google Colab et Comfyui pour montrer comment générer des images à l'aide de l'API stable Diffusion 3. Dans la section suivante, nous couvrirons les étapes pour commencer à utiliser chaque outil.
Pour commencer avec Google Colab, vous devez créer un compte Google - cliquez sur le lien et suivez les instructions.
Si vous avez déjà un compte Google, ouvrez un nouveau ordinateur portable et suivez les étapes ci-dessous.
Remarque: Le code utilisé dans cet exemple est tiré du tutoriel SD3_API par stabilité ai.
Étape 1: Installez les exigences.
from io import BytesIO import IPython import json import os from PIL import Image import requests import time from google.colab import output
Étape 2: Connectez-vous à l'API de stabilité.
import getpass # To get your API key, visit https://platform.stability.ai/account/keys STABILITY_KEY = getpass.getpass('Enter your API Key')
Étape 3. Définissez les fonctions
def send_generation_request( host, params, ): headers = { "Accept": "image/*", "Authorization": f"Bearer {STABILITY_KEY}" } # Encode parameters files = {} image = params.pop("image", None) mask = params.pop("mask", None) if image is not None and image != '': files["image"] = open(image, 'rb') if mask is not None and mask != '': files["mask"] = open(mask, 'rb') if len(files)==0: files["none"] = '' # Send request print(f"Sending REST request to {host}...") response = requests.post( host, headers=headers, files=files, data=params ) if not response.ok: raise Exception(f"HTTP {response.status_code}: {response.text}") return response
Étape 4. Générez des images.
Selon la documentation, les services d'image stables incluent une seule offre qui est actuellement en production:
Testons-les.
Dans cet exemple, nous créerons une image d'un oiseau Toucan dans une zone tropique de plaine.
# SD3 prompt = "This dreamlike digital art captures a vibrant, Toucan bird in a lowland tropic area" #@param {type:"string"} negative_prompt = "" #@param {type:"string"} aspect_ratio = "1:1" #@param ["21:9", "16:9", "3:2", "5:4", "1:1", "4:5", "2:3", "9:16", "9:21"] seed = 0 #@param {type:"integer"} output_format = "jpeg" #@param ["jpeg", "png"] host = f"https://api.stability.ai/v2beta/stable-image/generate/sd3" params = { "prompt" : prompt, "negative_prompt" : negative_prompt, "aspect_ratio" : aspect_ratio, "seed" : seed, "output_format" : output_format, "model" : "sd3", "mode" : "text-to-image" } response = send_generation_request( host, params ) # Decode response output_image = response.content finish_reason = response.headers.get("finish-reason") seed = response.headers.get("seed") # Check for NSFW classification if finish_reason == 'CONTENT_FILTERED': raise Warning("Generation failed NSFW classifier") # Save and display result generated = f"generated_{seed}.{output_format}" with open(generated, "wb") as f: f.write(output_image) print(f"Saved image {generated}") output.no_vertical_scroll() print("Result image:") IPython.display.display(Image.open(generated))
Voici ce qu'il a créé:
Image créée par auteur utilisant une diffusion stable 3
Maintenant, créons une image d'une voiture faite de fruits à l'aide de SD3 Turbo:
#SD3 Turbo prompt = "A car made out of fruits." #@param {type:"string"} aspect_ratio = "1:1" #@param ["21:9", "16:9", "3:2", "5:4", "1:1", "4:5", "2:3", "9:16", "9:21"] seed = 0 #@param {type:"integer"} output_format = "jpeg" #@param ["jpeg", "png"] host = f"https://api.stability.ai/v2beta/stable-image/generate/sd3" params = { "prompt" : prompt, "aspect_ratio" : aspect_ratio, "seed" : seed, "output_format" : output_format, "model" : "sd3-turbo" } response = send_generation_request( host, params ) # Decode response output_image = response.content finish_reason = response.headers.get("finish-reason") seed = response.headers.get("seed") # Check for NSFW classification if finish_reason == 'CONTENT_FILTERED': raise Warning("Generation failed NSFW classifier") # Save and display result generated = f"generated_{seed}.{output_format}" with open(generated, "wb") as f: f.write(output_image) print(f"Saved image {generated}") output.no_vertical_scroll() print("Result image:") IPython.display.display(Image.open(generated))
L'exécution de ce code a produit l'image suivante:
Image créée par auteur utilisant une diffusion stable 3 turbo
Comfyui est une interface utilisateur graphique robuste et flexible (GUI) pour une diffusion stable. Il dispose d'une interface basée sur des graphiques et utilise une conception de style organigramme pour permettre aux utilisateurs de créer et d'exécuter des flux de travail de diffusion stables sophistiqués.
La méthode la plus simple pour l'installation de Comfyui sur Windows consiste à utiliser le programme d'installation autonome trouvé sur la page des versions. Ce programme d'installation comprend des dépendances essentielles telles que Pytorch et étreindre les transformateurs de face, éliminant le besoin d'installations séparées.
Il fournit un package complet, permettant une configuration rapide de comfyui sur Windows sans nécessiter de configurations complexes.
Télécharger, extraire, ajouter des modèles et lancer!
Étape 1.1: Téléchargez la version autonome de Comfyui à partir de ce référentiel GitHub - cliquer sur le lien initiera le téléchargement.
Étape 1.2: Une fois que vous avez téléchargé le fichier comfyui-windows.zip le plus récent, extraire à l'aide d'un utilitaire tel que 7-Zip ou Winrar.
Étape 1.3: Un modèle de point de contrôle est nécessaire pour commencer à utiliser comfyui. Vous pouvez télécharger un modèle de point de contrôle à partir d'une diffusion stable ou d'un visage étreint. Mettez le modèle dans le dossier:
from io import BytesIO import IPython import json import os from PIL import Image import requests import time from google.colab import output
Étape 1.4: Maintenant, exécutez simplement le run_nvidia_gpu.bat (recommandé) ou run_cpu.bat. Cela devrait démarrer automatiquement Comfyui sur votre navigateur.
La ligne de commande exécutera et générera une URL http://127.0.0.1:8188/ que vous pouvez maintenant ouvrir dans votre navigateur.
Dans l'application File Explorer, localisez le répertoire que vous venez d'installer. Étant donné que vous utilisez Windows, il doit être nommé "Comfyui_windows_portable". À partir de là, accédez à Comfyui, puis CUSTOM_NODES. À partir de cet emplacement, tapez CMD dans la barre d'adresse et appuyez sur Entrée.
Cela devrait ouvrir un terminal d'invite de commande, où vous devez insérer la commande suivante:
import getpass # To get your API key, visit https://platform.stability.ai/account/keys STABILITY_KEY = getpass.getpass('Enter your API Key')
Une fois qu'il est terminé, redémarrez Comfyui. Le nouveau bouton « Manager » doit apparaître sur le panneau flottant.
Sélectionnez le bouton Gérer et accédez à " Installez les nœuds personnalisés. " À partir d'ici, recherchez " API de stabilité. "
Localisez le nœud "API de stabilité pour le nœud comfyui", puis cliquez sur le bouton d'installation situé sur le côté droit pour initier le processus d'installation. Après cela, un bouton « redémarrer » deviendra visible. Cliquez sur « redémarrer » pour redémarrer Comfyui.
Cette étape est facultative, mais elle est recommandée. À savoir, vous pouvez définir une clé API AI de stabilité pour chaque nœud dans le nœud personnalisé de stabilité AI. Cela empêche la nécessité de saisir la clé API à plusieurs reprises dans chaque flux de travail et réduit le risque de partager par inadvertance votre clé d'API lors du partage de votre fichier JSON de workflow.
Pour ce faire, accédez au répertoire de nœud personnalisé:
from io import BytesIO import IPython import json import os from PIL import Image import requests import time from google.colab import output
Créez un nouveau fichier nommé SAI_PLATFORM_KEY.txt. Collez votre clé API dans le fichier, enregistrez le document, puis redémarrez Comfyui.
Installez le workflow de texte stable Diffusion 3 et déposons-le dans Comfyui.
Vous êtes maintenant prêt à partir!
Comme pour n'importe quel outil, il y a toujours une chance que vous rencontrerez quelques problèmes en cours de route. Voici les défis les plus courants et les étapes de dépannage pour les utilisateurs confrontés à des problèmes avec l'API ou le processus de configuration.
Challenge: Les utilisateurs peuvent faire face à des erreurs d'authentification lors de l'accès à l'API en raison d'une clé API incorrecte ou de mauvaises informations d'authentification.
Dépannage: Vérifiez la touche API et assurez-vous qu'il est copié et collé correctement. Vérifiez qu'il n'y a pas d'espaces ou de caractères supplémentaires dans la clé. Assurez-vous que la touche API est correctement authentifiée par le serveur stable Diffusion 3.
Challenge: Les utilisateurs peuvent rencontrer des problèmes liés à la gestion du crédit, tels que des crédits insuffisants ou des erreurs de facturation.
Dépannage: Vérifiez votre solde de crédit dans le tableau de bord stable de diffusion 3 pour vous assurer que vous avez suffisamment de crédits. Vérifiez vos informations de facturation et abordez toutes les erreurs de facturation ou divergences avec l'équipe d'assistance.
Challenge: Les utilisateurs peuvent rencontrer des problèmes de connectivité ou des interruptions de réseau qui les empêchent d'accéder à l'API.
Dépannage: Assurez-vous d'avoir une connexion Internet stable et qu'il n'y a pas de perturbations du réseau. Pour isoler le problème, essayez d'accéder à l'API à partir d'un autre réseau ou appareil. Contactez votre fournisseur de services Internet si vous continuez à rencontrer des problèmes de connectivité.
Challenge: Les utilisateurs peuvent rencontrer des problèmes de compatibilité ou des erreurs de dépendance lors de l'installation ou de l'utilisation des outils et bibliothèques requis.
Dépannage: Vérifiez les exigences de compatibilité de l'API stable Diffusion 3 et assurez-vous que vous utilisez des versions compatibles des outils et des bibliothèques. Mettre à jour ou réinstaller toutes les dépendances qui causent des erreurs. Reportez-vous à la documentation et aux forums communautaires pour le dépannage des conseils.
Challenge: Les utilisateurs peuvent ressentir des temps de réponse ou des problèmes de performance lents lors de l'interaction avec l'API, en particulier pendant les temps d'utilisation de pointe.
Dépannage: Surveiller les performances de l'API et suivre les temps de réponse pour identifier les modèles ou les tendances. Envisagez de passer à un plan d'abonnement à niveau supérieur pour de meilleures performances et un accès prioritaire. Contactez l'équipe d'assistance si vous ressentez régulièrement des temps de réponse lents.
Challenge: Les utilisateurs peuvent rencontrer des difficultés à comprendre la documentation de l'API ou nécessiter une aide dépannageant des problèmes spécifiques.
Dépannage: Pour que les conseils sur l'utilisation de l'API, le dépannage et les meilleures pratiques, reportez-vous à la documentation stable de diffusion 3. Si vous avez des problèmes ou des questions non résolus, contactez l'équipe de soutien ou les forums communautaires.
La diffusion stable 3 est une série de modèles d'IA génératifs de texte à l'image. Cet article a couvert des étapes pratiques pour commencer à utiliser l'API avec Google Colab et Comfyui. Maintenant, vous avez les compétences nécessaires pour créer vos propres images; Assurez-vous d'appliquer ce que vous avez appris dès que possible afin que vous n'oubliez pas.
Merci d'avoir lu!
Les meilleures pratiques pour l'utilisation de l'API stable Diffusion 3 incluent la fourniture d'invites claires et spécifiques, l'expérimentation de différents paramètres pour obtenir les résultats souhaités, surveillant l'utilisation du crédit pour éviter la déplétion et rester mis à jour avec les dernières documents et fonctionnalités.
La diffusion stable comprend une collection de modèles d'IA axés sur la génération d'images à partir d'invites textuelles. Les utilisateurs fournissent des descriptions des images souhaitées et le modèle génère des représentations visuelles correspondantes en fonction de ces invites.
La diffusion stable 3 utilise une architecture de transformateur de diffusion semblable à Sora, divergeant à partir de versions antérieures qui ont utilisé un modèle de diffusion semblable à la plupart des IA de génération d'images existants. Cette innovation fusionne l'architecture transformateur couramment utilisée dans des modèles de grande langue tels que le GPT avec des modèles de diffusion, offrant le potentiel de tirer parti des forces des deux architectures.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!