Imagen 3: un guide avec des exemples dans l'API Gemini
Imagen 3: Un tutoriel Python pour la génération de texte à l'image
Imagen 3 est un puissant modèle de texte à image capable de générer des images très détaillées et stylistiquement diverses, même en incorporant du texte. Ce didacticiel montre comment tirer parti des capacités d'imagen 3 par programme en utilisant l'API AI et Python génératifs de Google. Nous couvrirons la configuration de l'environnement, la mise en œuvre du code et explorerons diverses options de génération d'images.
Accéder à Imagen 3 via l'API Generative AI Google
Pour commencer, vous aurez besoin d'un projet Google Cloud et d'une clé API.
Configuration de votre environnement Google Cloud:
- Console Cloud Google: Accédez à la console Google Cloud et connectez-vous.
- Nouveau projet: Créer un nouveau projet (par exemple, "Imagen-tutorial").
- Détails du projet: Remplissez les détails du projet nécessaires. Le champ d'organisation est facultatif.
Génération de clés de l'API:
- Accédez à la page de la clé API dans Google AI Studio.
- Cliquez sur "Créer une clé API."
- Sélectionnez votre projet nouvellement créé et cliquez sur "Créer".
- Enregistrez votre clé API en toute sécurité. Créez un fichier
.env
dans votre répertoire de projet avec le contenu suivant:
<code>GEMINI_API_KEY=<your_api_key></your_api_key></code>
Configuration du compte de facturation:
Imagen 3 est un service payant. Associez un compte de facturation à votre projet Google Cloud pour éviter les erreurs d'utilisation de l'API. Suivez les invites dans Google AI Studio pour lier ou créer un compte de facturation. Le coût actuel par génération d'images est de 0,03 $ (vérifiez la page de tarification officielle des derniers tarifs).
Configuration de l'environnement Python (Anaconda recommandé):
- Installez Anaconda: Téléchargez et installez Anaconda à partir du site officiel.
- Créer un environnement:
conda create -n imagen python=3.9
- Activer l'environnement:
conda activate imagen
- Installer les packages:
pip install -q -U google-genai pillow python-dotenv
Génération d'images avec Python:
Créez un script Python (par exemple, gen_image.py
) dans le même répertoire que votre fichier .env
.
# Import necessary libraries from google import genai from google.genai import types from PIL import Image from io import BytesIO import os from dotenv import load_dotenv # Load API key from .env load_dotenv() api_key = os.getenv("GEMINI_API_KEY") # Initialize the client client = genai.Client(api_key=api_key) # Generate an image prompt = """A dog surfing at the beach""" response = client.models.generate_images( model="imagen-3.0-generate-002", prompt=prompt, config=types.GenerateImagesConfig(number_of_images=1) ) # Display the image for generated_image in response.generated_images: image = Image.open(BytesIO(generated_image.image.image_bytes)) image.show()
Options de génération d'images avancées:
L'objet types.GenerateImagesConfig
permet la personnalisation:
-
number_of_images
: générer plusieurs images (par défaut: 4). -
aspect_ratio
: Contrôler le rapport d'aspect (par exemple, "9:16" pour les images verticales). -
safety_filter_level
: actuellement ne prend en charge queBLOCK_LOW_AND_ABOVE
. -
person_generation
: Contrôlez si les gens sont autorisés à l'image (ALLOW_ADULT
ouDONT_ALLOW
).
Ingénierie rapide efficace:
Création des invites efficaces est cruciale. Utilisez un langage descriptif, spécifiez les styles et envisagez d'ajouter des détails sur l'éclairage, les paramètres de la caméra et les techniques artistiques pour de meilleurs résultats. Reportez-vous à la documentation officielle de l'imagen 3 pour des directives rapides détaillées.
Édition et personnalisation d'image (Accès actuellement limité):
Imagen 3 propose des fonctionnalités d'édition et de personnalisation d'image, mais l'accès est actuellement restreint.
Conclusion:
Ce didacticiel fournit une base pour l'utilisation d'Imagen 3 via l'API et Python Génératifs Google. Expérimentez avec différentes invites et options de configuration pour déverrouiller le plein potentiel de ce puissant modèle de texte à image. N'oubliez pas de toujours vérifier la documentation officielle pour les informations et les prix les plus à jour.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











Hé là, codant ninja! Quelles tâches liées au codage avez-vous prévues pour la journée? Avant de plonger plus loin dans ce blog, je veux que vous réfléchissiez à tous vos malheurs liés au codage - les énumérez. Fait? - Let & # 8217

Introduction Openai a publié son nouveau modèle basé sur l'architecture «aux fraises» très attendue. Ce modèle innovant, connu sous le nom d'O1, améliore les capacités de raisonnement, lui permettant de réfléchir à des problèmes Mor

Instruction ALTER TABLE de SQL: Ajout de colonnes dynamiquement à votre base de données Dans la gestion des données, l'adaptabilité de SQL est cruciale. Besoin d'ajuster votre structure de base de données à la volée? L'énoncé de la table alter est votre solution. Ce guide détaille l'ajout de Colu

Introduction Mistral a publié son tout premier modèle multimodal, à savoir le pixtral-12b-2409. Ce modèle est construit sur les 12 milliards de paramètres de Mistral, Nemo 12b. Qu'est-ce qui distingue ce modèle? Il peut maintenant prendre les deux images et Tex

Tout en travaillant sur une IA agentique, les développeurs se retrouvent souvent à naviguer dans les compromis entre la vitesse, la flexibilité et l'efficacité des ressources. J'ai exploré le cadre de l'IA agentique et je suis tombé sur Agno (plus tôt c'était Phi-

Benchmarks en difficulté: une étude de cas de lama Début avril 2025, Meta a dévoilé sa suite de modèles Llama 4, avec des métriques de performance impressionnantes qui les ont placés favorablement contre des concurrents comme GPT-4O et Claude 3.5 Sonnet. Au centre du launc

Un jeu vidéo peut-il faciliter l'anxiété, se concentrer ou soutenir un enfant atteint de TDAH? Au fur et à mesure que les défis de la santé augmentent à l'échelle mondiale - en particulier chez les jeunes - les innovateurs se tournent vers un outil improbable: les jeux vidéo. Maintenant l'un des plus grands divertissements du monde Indus

La version comprend trois modèles distincts, GPT-4.1, GPT-4.1 Mini et GPT-4.1 Nano, signalant une évolution vers des optimisations spécifiques à la tâche dans le paysage du modèle grand langage. Ces modèles ne remplacent pas immédiatement les interfaces orientées utilisateur comme
