Maison > Périphériques technologiques > IA > Comment utiliser l'API stable Diffusion 3

Comment utiliser l'API stable Diffusion 3

Joseph Gordon-Levitt
Libérer: 2025-03-07 09:05:09
original
275 Les gens l'ont consulté

Stabilité AI a annoncé un aperçu précoce de la diffusion stable 3 en février 2024. Le modèle d'IA est toujours en avant-première, mais en avril 2024, l'équipe a annoncé qu'ils feraient une diffusion 3 stable et une API de plateforme de développement AI la plus rapide et la plus rapide de la plate-forme API la plus rapide et la plus fiable du marché.

Notez que la diffusion stable 3 est simplement une série de modèles d'IA génératifs du texte à l'image. Selon l'équipe de Stabilité AI, le modèle est

"égal à ou surpasse" d'autres générateurs de texte à image, tels que Dall-E 3 et MidJourney V6 d'Openai, dans "Typographie et adhérence rapide".

Dans ce tutoriel, vous apprendrez des étapes pratiques pour commencer avec l'API afin que vous puissiez commencer à générer vos propres images.

Pourquoi la diffusion stable 3?

La diffusion stable 3 introduit plusieurs progrès et fonctionnalités qui le distinguent de ses prédécesseurs et le rendent très compétitif dans l'espace de génération de texte à l'image - en particulier en termes de génération de texte améliorée et de capacités de suivi rapide.

Explorons ces progrès:

Invite améliorée suivant

  • Compréhension contextuelle: La diffusion stable 3 intègre des techniques de traitement du langage naturel (NLP) de pointe, ce qui lui permet de mieux comprendre et d'interpréter les invites utilisateur. Cela permet des réponses plus précises et contextuellement pertinentes aux entrées des utilisateurs.
  • Continuité rapide: Contrairement aux versions précédentes, la diffusion stable 3 maintient une meilleure continuité dans les invites suivantes, en veillant à ce que le texte généré reste cohérent et aligné sur la contribution de l'utilisateur tout au long de la conversation.

Amélioration de la génération de texte

  • Modèles de langage affinés: La diffusion stable 3 utilise des modèles de langage affinés qui ont suivi une formation approfondie sur de grands ensembles de données, entraînant des capacités de génération de texte améliorées. Ces modèles comprennent mieux la grammaire, la syntaxe et la sémantique, conduisant à des réponses plus cohérentes et à consonance naturelle.
  • Variabilité réduite de la réponse: Grâce à des méthodologies de formation et à des architectures de modèle améliorées, la diffusion stable 3 réduit la variabilité de la réponse, générant des sorties plus cohérentes et de haute qualité sur différentes invites et contextes.

Extension invite avancée

  • Support de dialogue multi-virnes: La diffusion stable 3 peut gérer plus efficacement les dialogues multi-tours, en maintenant la cohérence et le contexte entre plusieurs échanges entre l'utilisateur et le modèle AI.
  • Techniques d'expansion invite: Le modèle utilise des techniques d'extension invite avancées pour générer des réponses plus informatives et contextuellement pertinentes, enrichissant le dialogue et en fournissant aux utilisateurs des réponses complètes à leurs requêtes.

Mécanismes de contrôle affinés

  • Taping des paramètres: DIFUSION STABLE 3 Fonctionne des mécanismes de contrôle affinés qui permettent aux utilisateurs d'ajuster les paramètres tels que la longueur de la réponse, le niveau de créativité et la pertinence du sujet, permettant une expérience d'interaction plus personnalisée.
  • Mitigation des biais: Le modèle intègre des mesures pour atténuer les biais dans la génération de texte, favorisant l'équité et l'inclusivité dans ses réponses aux invites utilisateur.

APPRENDRE AVEC API STABLE DIFUSION 3

Cette section passera par les étapes pour commencer avec l'API de stabilité.

Étape 1: Créez votre compte. Vous devrez créer un compte avant de pouvoir utiliser l'API de stabilité AI. Vous pouvez vous inscrire à l'aide d'un nom d'utilisateur et d'un mot de passe, mais les nouveaux utilisateurs obtiennent 25 crédits gratuits pour s'inscrire à l'aide de leur compte Google.

Étape 2: Réclamez votre clé API. Une fois que vous avez créé votre compte, vous aurez besoin d'une API. Cela se trouve sur la page des clés API. Dans la documentation, la stabilité AI indique que «Toutes les API documentées sur ce site utilisent le même mécanisme d'authentification: passer la clé API dans l'en-tête d'autorisation.»

Étape 3: Crédits de dépression. Vous devez avoir des crédits pour demander l'API. Les crédits sont l'unité de devise consommée lors de l'appel de l'API - le montant consommé varie à l'autre et les modalités. Après avoir utilisé tous vos crédits, vous pouvez acheter plus via votre tableau de bord de facturation à 1 $ pour 100 crédits.

Dans ce didacticiel, nous utiliserons Google Colab et Comfyui pour montrer comment générer des images à l'aide de l'API stable Diffusion 3. Dans la section suivante, nous couvrirons les étapes pour commencer à utiliser chaque outil.

en utilisant l'API stable Diffusion 3 avec Google Colab

Pour commencer avec Google Colab, vous devez créer un compte Google - cliquez sur le lien et suivez les instructions.

Si vous avez déjà un compte Google, ouvrez un nouveau ordinateur portable et suivez les étapes ci-dessous.

Remarque: Le code utilisé dans cet exemple est tiré du tutoriel SD3_API par stabilité ai.

Étape 1: Installez les exigences.

from io import BytesIO
import IPython
import json
import os
from PIL import Image
import requests
import time
from google.colab import output
Copier après la connexion
Copier après la connexion
Copier après la connexion

Étape 2: Connectez-vous à l'API de stabilité.

import getpass
# To get your API key, visit https://platform.stability.ai/account/keys
STABILITY_KEY = getpass.getpass('Enter your API Key')
Copier après la connexion
Copier après la connexion

Étape 3. Définissez les fonctions

def send_generation_request(
    host,
    params,
):
    headers = {
        "Accept": "image/*",
        "Authorization": f"Bearer {STABILITY_KEY}"
    }

    # Encode parameters
    files = {}
    image = params.pop("image", None)
    mask = params.pop("mask", None)
    if image is not None and image != '':
        files["image"] = open(image, 'rb')
    if mask is not None and mask != '':
        files["mask"] = open(mask, 'rb')
    if len(files)==0:
        files["none"] = ''

    # Send request
    print(f"Sending REST request to {host}...")
    response = requests.post(
        host,
        headers=headers,
        files=files,
        data=params
    )
    if not response.ok:
        raise Exception(f"HTTP {response.status_code}: {response.text}")

    return response
Copier après la connexion

Étape 4. Générez des images.

Selon la documentation, les services d'image stables incluent une seule offre qui est actuellement en production:

  • sd3: utilise 6.5 crédits
  • SD3 Turbo: utilise 4 crédits

Testons-les.

Dans cet exemple, nous créerons une image d'un oiseau Toucan dans une zone tropique de plaine.

# SD3

prompt = "This dreamlike digital art captures a vibrant, Toucan bird in a lowland tropic area" #@param {type:"string"}
negative_prompt = "" #@param {type:"string"}
aspect_ratio = "1:1" #@param ["21:9", "16:9", "3:2", "5:4", "1:1", "4:5", "2:3", "9:16", "9:21"]
seed = 0 #@param {type:"integer"}
output_format = "jpeg" #@param ["jpeg", "png"]

host = f"https://api.stability.ai/v2beta/stable-image/generate/sd3"

params = {
    "prompt" : prompt,
    "negative_prompt" : negative_prompt,
    "aspect_ratio" : aspect_ratio,
    "seed" : seed,
    "output_format" : output_format,
    "model" : "sd3",
    "mode" : "text-to-image"
}

response = send_generation_request(
    host,
    params
)

# Decode response
output_image = response.content
finish_reason = response.headers.get("finish-reason")
seed = response.headers.get("seed")

# Check for NSFW classification
if finish_reason == 'CONTENT_FILTERED':
    raise Warning("Generation failed NSFW classifier")

# Save and display result
generated = f"generated_{seed}.{output_format}"
with open(generated, "wb") as f:
    f.write(output_image)
print(f"Saved image {generated}")

output.no_vertical_scroll()
print("Result image:")
IPython.display.display(Image.open(generated))
Copier après la connexion

Voici ce qu'il a créé:

Comment utiliser l'API stable Diffusion 3

Image créée par auteur utilisant une diffusion stable 3

Maintenant, créons une image d'une voiture faite de fruits à l'aide de SD3 Turbo:

#SD3 Turbo

prompt = "A car made out of fruits." #@param {type:"string"}
aspect_ratio = "1:1" #@param ["21:9", "16:9", "3:2", "5:4", "1:1", "4:5", "2:3", "9:16", "9:21"]
seed = 0 #@param {type:"integer"}
output_format = "jpeg" #@param ["jpeg", "png"]

host = f"https://api.stability.ai/v2beta/stable-image/generate/sd3"

params = {
    "prompt" : prompt,
    "aspect_ratio" : aspect_ratio,
    "seed" : seed,
    "output_format" : output_format,
    "model" : "sd3-turbo"
}

response = send_generation_request(
    host,
    params
)

# Decode response
output_image = response.content
finish_reason = response.headers.get("finish-reason")
seed = response.headers.get("seed")

# Check for NSFW classification
if finish_reason == 'CONTENT_FILTERED':
    raise Warning("Generation failed NSFW classifier")

# Save and display result
generated = f"generated_{seed}.{output_format}"
with open(generated, "wb") as f:
    f.write(output_image)
print(f"Saved image {generated}")

output.no_vertical_scroll()
print("Result image:")
IPython.display.display(Image.open(generated))
Copier après la connexion

L'exécution de ce code a produit l'image suivante:

Comment utiliser l'API stable Diffusion 3

Image créée par auteur utilisant une diffusion stable 3 turbo

en utilisant l'API avec comfyui

Comfyui est une interface utilisateur graphique robuste et flexible (GUI) pour une diffusion stable. Il dispose d'une interface basée sur des graphiques et utilise une conception de style organigramme pour permettre aux utilisateurs de créer et d'exécuter des flux de travail de diffusion stables sophistiqués.

Exigences du système:

  • Unité de traitement graphique (GPU): Un GPU NVIDIA adéquat avec un minimum de 8 Go de VRAM, comme le RTX 3060 Ti ou mieux.
  • Unité de traitement centrale (CPU): Un processeur contemporain, y compris Intel Xeon E5, I5, Ryzen 5, ou plus.
  • Mémoire d'accès aléatoire (RAM): 16 Go ou plus.
  • Système d'exploitation: Windows 10/11 ou Linux.
  • Espace de stockage adéquat sur votre ordinateur pour les modèles et les images générées.

Étape 1: Installez Comfyui

La méthode la plus simple pour l'installation de Comfyui sur Windows consiste à utiliser le programme d'installation autonome trouvé sur la page des versions. Ce programme d'installation comprend des dépendances essentielles telles que Pytorch et étreindre les transformateurs de face, éliminant le besoin d'installations séparées.

Il fournit un package complet, permettant une configuration rapide de comfyui sur Windows sans nécessiter de configurations complexes.

Télécharger, extraire, ajouter des modèles et lancer!

Étape 1.1: Téléchargez la version autonome de Comfyui à partir de ce référentiel GitHub - cliquer sur le lien initiera le téléchargement.

Étape 1.2: Une fois que vous avez téléchargé le fichier comfyui-windows.zip le plus récent, extraire à l'aide d'un utilitaire tel que 7-Zip ou Winrar.

Étape 1.3: Un modèle de point de contrôle est nécessaire pour commencer à utiliser comfyui. Vous pouvez télécharger un modèle de point de contrôle à partir d'une diffusion stable ou d'un visage étreint. Mettez le modèle dans le dossier:

from io import BytesIO
import IPython
import json
import os
from PIL import Image
import requests
import time
from google.colab import output
Copier après la connexion
Copier après la connexion
Copier après la connexion

Étape 1.4: Maintenant, exécutez simplement le run_nvidia_gpu.bat (recommandé) ou run_cpu.bat. Cela devrait démarrer automatiquement Comfyui sur votre navigateur.

La ligne de commande exécutera et générera une URL http://127.0.0.1:8188/ que vous pouvez maintenant ouvrir dans votre navigateur.

Étape 2: Installez Comfyui Manager

Dans l'application File Explorer, localisez le répertoire que vous venez d'installer. Étant donné que vous utilisez Windows, il doit être nommé "Comfyui_windows_portable". À partir de là, accédez à Comfyui, puis CUSTOM_NODES. À partir de cet emplacement, tapez CMD dans la barre d'adresse et appuyez sur Entrée.

Cela devrait ouvrir un terminal d'invite de commande, où vous devez insérer la commande suivante:

import getpass
# To get your API key, visit https://platform.stability.ai/account/keys
STABILITY_KEY = getpass.getpass('Enter your API Key')
Copier après la connexion
Copier après la connexion

Une fois qu'il est terminé, redémarrez Comfyui. Le nouveau bouton « Manager » doit apparaître sur le panneau flottant.

Étape 3: Installez le nœud API AI de stabilité

Sélectionnez le bouton Gérer et accédez à " Installez les nœuds personnalisés. " À partir d'ici, recherchez " API de stabilité. "

Localisez le nœud "API de stabilité pour le nœud comfyui", puis cliquez sur le bouton d'installation situé sur le côté droit pour initier le processus d'installation. Après cela, un bouton « redémarrer » deviendra visible. Cliquez sur « redémarrer » pour redémarrer Comfyui.

Étape 4: Définissez la clé d'API à l'échelle du système

Cette étape est facultative, mais elle est recommandée. À savoir, vous pouvez définir une clé API AI de stabilité pour chaque nœud dans le nœud personnalisé de stabilité AI. Cela empêche la nécessité de saisir la clé API à plusieurs reprises dans chaque flux de travail et réduit le risque de partager par inadvertance votre clé d'API lors du partage de votre fichier JSON de workflow.

Pour ce faire, accédez au répertoire de nœud personnalisé:

from io import BytesIO
import IPython
import json
import os
from PIL import Image
import requests
import time
from google.colab import output
Copier après la connexion
Copier après la connexion
Copier après la connexion

Créez un nouveau fichier nommé SAI_PLATFORM_KEY.txt. Collez votre clé API dans le fichier, enregistrez le document, puis redémarrez Comfyui.

Étape 5: Chargez et exécutez le workflow

Installez le workflow de texte stable Diffusion 3 et déposons-le dans Comfyui.

Vous êtes maintenant prêt à partir!

Dépannage et conseils

Comme pour n'importe quel outil, il y a toujours une chance que vous rencontrerez quelques problèmes en cours de route. Voici les défis les plus courants et les étapes de dépannage pour les utilisateurs confrontés à des problèmes avec l'API ou le processus de configuration.

Clé API et problèmes d'authentification

Challenge: Les utilisateurs peuvent faire face à des erreurs d'authentification lors de l'accès à l'API en raison d'une clé API incorrecte ou de mauvaises informations d'authentification.

Dépannage: Vérifiez la touche API et assurez-vous qu'il est copié et collé correctement. Vérifiez qu'il n'y a pas d'espaces ou de caractères supplémentaires dans la clé. Assurez-vous que la touche API est correctement authentifiée par le serveur stable Diffusion 3.

Problèmes de gestion du crédit

Challenge: Les utilisateurs peuvent rencontrer des problèmes liés à la gestion du crédit, tels que des crédits insuffisants ou des erreurs de facturation.

Dépannage: Vérifiez votre solde de crédit dans le tableau de bord stable de diffusion 3 pour vous assurer que vous avez suffisamment de crédits. Vérifiez vos informations de facturation et abordez toutes les erreurs de facturation ou divergences avec l'équipe d'assistance.

Problèmes de connectivité et de réseau

Challenge: Les utilisateurs peuvent rencontrer des problèmes de connectivité ou des interruptions de réseau qui les empêchent d'accéder à l'API.

Dépannage: Assurez-vous d'avoir une connexion Internet stable et qu'il n'y a pas de perturbations du réseau. Pour isoler le problème, essayez d'accéder à l'API à partir d'un autre réseau ou appareil. Contactez votre fournisseur de services Internet si vous continuez à rencontrer des problèmes de connectivité.

Erreurs de compatibilité et de dépendance

Challenge: Les utilisateurs peuvent rencontrer des problèmes de compatibilité ou des erreurs de dépendance lors de l'installation ou de l'utilisation des outils et bibliothèques requis.

Dépannage: Vérifiez les exigences de compatibilité de l'API stable Diffusion 3 et assurez-vous que vous utilisez des versions compatibles des outils et des bibliothèques. Mettre à jour ou réinstaller toutes les dépendances qui causent des erreurs. Reportez-vous à la documentation et aux forums communautaires pour le dépannage des conseils.

Performance et temps de réponse

Challenge: Les utilisateurs peuvent ressentir des temps de réponse ou des problèmes de performance lents lors de l'interaction avec l'API, en particulier pendant les temps d'utilisation de pointe.

Dépannage: Surveiller les performances de l'API et suivre les temps de réponse pour identifier les modèles ou les tendances. Envisagez de passer à un plan d'abonnement à niveau supérieur pour de meilleures performances et un accès prioritaire. Contactez l'équipe d'assistance si vous ressentez régulièrement des temps de réponse lents.

Documentation et support

Challenge: Les utilisateurs peuvent rencontrer des difficultés à comprendre la documentation de l'API ou nécessiter une aide dépannageant des problèmes spécifiques.

Dépannage: Pour que les conseils sur l'utilisation de l'API, le dépannage et les meilleures pratiques, reportez-vous à la documentation stable de diffusion 3. Si vous avez des problèmes ou des questions non résolus, contactez l'équipe de soutien ou les forums communautaires.

Conclusion

La diffusion stable 3 est une série de modèles d'IA génératifs de texte à l'image. Cet article a couvert des étapes pratiques pour commencer à utiliser l'API avec Google Colab et Comfyui. Maintenant, vous avez les compétences nécessaires pour créer vos propres images; Assurez-vous d'appliquer ce que vous avez appris dès que possible afin que vous n'oubliez pas.

Merci d'avoir lu!

apprentissage plus approfondi

  • Ui Web de diffusion stable: un guide complet de l'utilisateur pour les débutants
  • affusion stable à réglage stable xl avec dreambooth et lora
  • comment exécuter une diffusion stable
  • Génération d'images photoréalistes utilisant l'IA avec des diffuseurs dans Python

FAQs

Quelles sont les meilleures pratiques pour utiliser efficacement l'API de diffusion 3 stable?

Les meilleures pratiques pour l'utilisation de l'API stable Diffusion 3 incluent la fourniture d'invites claires et spécifiques, l'expérimentation de différents paramètres pour obtenir les résultats souhaités, surveillant l'utilisation du crédit pour éviter la déplétion et rester mis à jour avec les dernières documents et fonctionnalités.

Qu'est-ce que la diffusion stable 3?

La diffusion stable comprend une collection de modèles d'IA axés sur la génération d'images à partir d'invites textuelles. Les utilisateurs fournissent des descriptions des images souhaitées et le modèle génère des représentations visuelles correspondantes en fonction de ces invites.

Comment fonctionne la diffusion stable?

La diffusion stable 3 utilise une architecture de transformateur de diffusion semblable à Sora, divergeant à partir de versions antérieures qui ont utilisé un modèle de diffusion semblable à la plupart des IA de génération d'images existants. Cette innovation fusionne l'architecture transformateur couramment utilisée dans des modèles de grande langue tels que le GPT avec des modèles de diffusion, offrant le potentiel de tirer parti des forces des deux architectures.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal