Tutoriel GEMINI 1.5 Pro API: Début avec Google & # x27; s LLM-IA-php.cn

Tutoriel GEMINI 1.5 Pro API: Début avec Google & # x27; s LLM

Joseph Gordon-Levitt

Libérer： 2025-03-06 10:34:09

original

151 Les gens l'ont consulté

Gemini 1.5 Pro: une plongée profonde dans l'IA multimodale avancée de Google et son API

GEMINI 1.5 Pro de Google représente un bond en avant significatif dans l'IA, offrant des capacités de raisonnement à long contexte à travers les modalités de texte, de vidéo et d'audio. Ce tutoriel vous guide à travers la connexion et l'utilisation de l'API Gemini 1.5 Pro pour des tâches telles que la récupération, la réponse aux questions et l'apprentissage dans le contexte. Pour une compréhension plus large de la famille Gemini, explorez cette ressource: Qu'est-ce que Google Gemini .

La famille Gemini: un spectre de capacités

La famille Gemini AI comprend plusieurs modèles d'IA génératifs développés par Google Research et Google Deepmind. Ces modèles excellent dans diverses tâches multimodales, aidant les développeurs à la création de contenu et à la résolution de problèmes. Chaque variante de modèle est adaptée à des applications spécifiques, optimisant les performances dans divers scénarios. La famille équilibre les besoins et les fonctionnalités informatiques en offrant à trois niveaux de taille:

Model	Size	Capabilities	Ideal Use Cases
Gemini Ultra	Largest	Most capable; handles highly complex tasks	Demanding applications, large-scale projects, intricate problem-solving
Gemini Pro	Medium	Versatile; suitable for a wide range of tasks, scalable	General-purpose applications, adaptable to diverse scenarios, projects balancing power and efficiency
Gemini Nano	Smallest	Lightweight and efficient; optimized for on-device and resource-constrained environments	Mobile applications, embedded systems, tasks with limited computational resources, real-time processing

Ce tutoriel se concentre sur Gemini 1.5 Pro, le modèle inaugural de la série 1.5.

GEMINI 1.5 Pro: compréhension sans précédent de contexte à long terme

La fenêtre de contexte substantiel de Gemini 1.5 Pro (au moins 10 millions de jetons) lui permet de comprendre des contextes étendus dans diverses applications. Des tests rigoureux entre les tâches à longue dépendance démontrent ses capacités exceptionnelles. Il a atteint un rappel presque parfait (& gt; 99%) dans des scénarios "à l'aiguille dans un haystack", même avec des backs de foin dépassant 10 millions de jetons. Gemini 1.5 Pro a surperformé les concurrents, y compris ceux utilisant des méthodes de récupération externes, en particulier sur les tâches nécessitant une compréhension des interdépendances à travers de grandes quantités de contenu. Sa capacité à effectuer un apprentissage dans le contexte, comme la traduction d'une nouvelle langue à partir d'un seul document linguistique, est également remarquable. Cette performance améliorée à long contexte ne compromet pas ses capacités multimodales inhérentes; Il s'est considérablement amélioré par rapport à son prédécesseur (Gemini 1.0 Pro) dans divers domaines (28,9% en mathématiques, sciences et raisonnement), dépassant même le modèle ultra Gemini 1.0 dans de nombreux repères.

Gemini 1.5 Pro API Tutorial: Getting Started With Google's LLM source de données.

Pour plus de détails, reportez-vous au rapport technique: «Gemini 1.5: déverrouiller la compréhension multimodale à travers des millions de jetons de contexte».

Applications réelles de Gemini 1.5 Pro

GEMINI 1.5 Pro capacité de traiter des millions de jetons ouvre des portes aux applications innovantes:

Génie logiciel: Il peut identifier des emplacements de code spécifiques dans des bases de code massives (par exemple, identifier une méthode de différenciation automatique de base dans la base de code JAX 746,152).
Traduction linguistique: Il peut se traduire entre les langues avec des données en ligne limitées, en s'appuyant uniquement sur le contexte fourni (par exemple, traduire de l'anglais à Kalamang en utilisant un livre de grammaire et une liste de mots). Cela semble prometteur pour la préservation des langues en voie de disparition.
Analyse d'image et de vidéo: Il peut identifier des scènes dans de longs textes (par exemple, localiser une scène de les Misérables basée sur un croquis) et des vidéos (par exemple, extraire des informations d'un cadre spécifique de "Sherlock Jr." et d'identification des scènes à partir de croquis).

Connexion à l'API Gemini 1.5 Pro: un guide étape par étape

Explorons comment accéder à la puissance de Gemini 1.5 Pro via son API.

Étape 1: Obtenez une clé API

Accédez à la page Google AI pour les développeurs (assurez-vous que vous êtes connecté). Cliquez sur "Obtenir une clé API" pour en générer une. Vous devrez configurer un projet.

Gemini 1.5 Pro API Tutorial: Getting Started With Google's LLM

Étape 2: Configurez votre environnement Python

Installez le package Python nécessaire:

pip install google-generativeai

Copier après la connexion

Importer des bibliothèques requises dans votre cahier de jupyter:

import google.generativeai as genai
from google.generativeai.types import ContentType
from PIL import Image
from IPython.display import Markdown
import time
import cv2

Copier après la connexion

Étape 3: Passez des appels API

Configurez l'API avec votre clé:

GOOGLE_API_KEY = 'your-api-key-goes-here'
genai.configure(api_key=GOOGLE_API_KEY)

Copier après la connexion

Vérifiez les modèles disponibles:

for m in genai.list_models():
    if 'generateContent' in m.supported_generation_methods:
        print(m.name)

Copier après la connexion

Access Gemini 1.5 Pro:

model = genai.GenerativeModel('gemini-1.5-pro-latest')

Copier après la connexion

Faire une simple invite de texte:

response = model.generate_content("Please provide a list of the most influential people in the world.")
print(response.text)

Copier après la connexion

Gemini 1.5 Pro API Tutorial: Getting Started With Google's LLM

Gemini AI fournit plusieurs candidats de réponse; Choisissez le meilleur.

Gemini 1.5 Pro API Tutorial: Getting Started With Google's LLM

Image Invite avec Gemini 1.5 Pro

Démontrer le traitement d'image. Supposons que vous ayez une image nommée "librairie.jpeg":

text_prompt = "List all the books and help me organize them into three categories."
bookshelf_image = Image.open('bookshelf.jpeg')
prompt = [text_prompt, bookshelf_image]
response = model.generate_content(prompt)
Markdown(response.text)

Copier après la connexion

Gemini 1.5 Pro API Tutorial: Getting Started With Google's LLM

Conclusion

Gemini 1.5 Pro, avec sa fenêtre de contexte étendue et ses capacités multimodales, offre un outil puissant pour diverses applications. Son API offre la flexibilité de travailler avec divers types de données, ce qui en fait un atout précieux pour les développeurs. Pour approfondir vos connaissances sur l'IA, considérez cette piste de compétences: AI Fondamentals Skill Track .

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!