Gemini 1.5 Pro API Tutorial: Erste Schritte mit Google ' s LLM-KI-php.cn

Gemini 1.5 Pro API Tutorial: Erste Schritte mit Google ' s LLM

Joseph Gordon-Levitt

Freigeben： 2025-03-06 10:34:09

Original

154 Leute haben es durchsucht

Gemini 1.5 Pro: Ein tiefes Eintauchen in die erweiterte multimodale KI von Google und ihre API

Googles Gemini 1.5 Pro stellt einen signifikanten Sprung nach vorne in der KI dar, das sich mit lang Kontext-Argumentationsfunktionen in den Bereichen Text-, Video- und Audio-Modalitäten auszeichnet. Dieses Tutorial führt Sie durch die Verbindung und Verwendung der Gemini 1.5 Pro-API für Aufgaben wie Abrufen, Fragenbeantwortung und In-Kontext-Lernen. Für ein umfassenderes Verständnis der Gemini -Familie untersuchen Sie diese Ressource: Was ist Google Gemini .

Die Gemini -Familie: Ein Spektrum der Fähigkeiten

Die Familie Gemini AI umfasst mehrere generative KI -Modelle, die von Google Research und Google DeepMind entwickelt wurden. Diese Modelle zeichnen sich bei verschiedenen multimodalen Aufgaben aus und unterstützen Entwickler bei der Erstellung von Inhalten und Problemlösung. Jede Modellvariante ist auf bestimmte Anwendungen zugeschnitten, wodurch die Leistung in verschiedenen Szenarien optimiert wird. Die Familie balanciert die rechnerischen Bedürfnisse und Funktionen, indem sie drei Größenstufen anbieten:

Model	Size	Capabilities	Ideal Use Cases
Gemini Ultra	Largest	Most capable; handles highly complex tasks	Demanding applications, large-scale projects, intricate problem-solving
Gemini Pro	Medium	Versatile; suitable for a wide range of tasks, scalable	General-purpose applications, adaptable to diverse scenarios, projects balancing power and efficiency
Gemini Nano	Smallest	Lightweight and efficient; optimized for on-device and resource-constrained environments	Mobile applications, embedded systems, tasks with limited computational resources, real-time processing

Dieses Tutorial konzentriert sich auf Gemini 1.5 Pro, das erste Modell in der 1,5 -Serie.

Gemini 1.5 Pro: beispielloses langkontextverständnis

Gemini 1.5 Pros wesentliches Kontextfenster (mindestens 10 Millionen Token) ermöglicht es ihm, umfangreiche Kontexte in verschiedenen Anwendungen zu verstehen. Strenge Tests über langabhängige Aufgaben zeigen seine außergewöhnlichen Fähigkeiten. Es erreichte einen nahezu perfekten Rückruf (& gt; 99%) in "Nadel-in-a-Haystack" -Szenarien, selbst wenn Heuhaufen mehr als 10 Millionen Token überschreiten. Gemini 1.5 Pro übertraf die Konkurrenten, einschließlich derjenigen, die externe Abrufmethoden verwenden, insbesondere bei Aufgaben, die Verständnis von Interdependenzen für große Mengen an Inhalten erfordern. Seine Fähigkeit, das Lernen in Kontexten durchzuführen, z. B. eine neue Sprache aus einem einzigen sprachlichen Dokument, ist ebenfalls bemerkenswert. Diese verbesserte langkontextbezogene Leistung beeinträchtigt seine inhärenten multimodalen Fähigkeiten nicht. Es verbesserte sich in verschiedenen Bereichen (28,9% in Mathematik, Naturwissenschaften und Argumentation) signifikant gegenüber seinem Vorgänger (Gemini 1.0 Pro) und übertraf sogar das Ultra -Modell von Gemini 1.0 in vielen Benchmarks.

Gemini 1.5 Pro API Tutorial: Getting Started With Google's LLM Datenquelle.

Für umfassende Details finden Sie im technischen Bericht: „Gemini 1.5: Freischsperren von multimodalem Verständnis in Millionen von Token von Kontext“.

reale Anwendungen von Gemini 1.5 Pro

Gemini 1.5 Pros Fähigkeit, Millionen von Token zu verarbeiten, öffnet Türen für innovative Anwendungen:

Software Engineering: Es kann spezifische Codepositionen in massiven Codebasen bestimmen (z. B. Identifizierung einer kernautomatischen Differenzierungsmethode innerhalb der JAX-Codebasis von 746.152-geschlagenem Jax).
Sprachübersetzung: Es kann zwischen Sprachen mit begrenzten Online -Daten übersetzt werden und sich ausschließlich auf den bereitgestellten Kontext verlassen (z. B. Übersetzung von Englisch in Kalamang mit einem Grammatikbuch und einer Wordlist). Dies zeigt vielversprechend, um gefährdete Sprachen zu erhalten.
Bild- und Videoanalyse: Es kann Szenen in langen Texten identifizieren (z. B. eine Szene aus les misérables basierend auf einer Skizze) und Videos (z. B. Extrahieren von Informationen aus einem bestimmten Rahmen von "Sherlock Jr." und identifizierende Szenen aus Sketchs).

Verbindung mit dem Gemini 1.5 Pro API: Eine Schritt-für-Schritt-Anleitung

Lassen Sie uns untersuchen, wie Sie über seine API auf die Leistung von Gemini 1.5 Pro zugreifen können.

Schritt 1: Erhalten Sie einen API -Schlüssel

Navigieren Sie zur Seite von Google AI for Developers (stellen Sie sicher, dass Sie angemeldet sind). Klicken Sie auf "eine API -Taste abrufen", um eine zu generieren. Sie müssen ein Projekt einrichten.

Gemini 1.5 Pro API Tutorial: Getting Started With Google's LLM

Schritt 2: Stellen Sie Ihre Python -Umgebung auf

Installieren Sie das erforderliche Python -Paket:

pip install google-generativeai

Nach dem Login kopieren

Importieren Sie die erforderlichen Bibliotheken in Ihrem Jupyter -Notizbuch:

import google.generativeai as genai
from google.generativeai.types import ContentType
from PIL import Image
from IPython.display import Markdown
import time
import cv2

Nach dem Login kopieren

Schritt 3: API -Aufrufe

machen

Konfigurieren Sie die API mit Ihrem Schlüssel:

GOOGLE_API_KEY = 'your-api-key-goes-here'
genai.configure(api_key=GOOGLE_API_KEY)

Nach dem Login kopieren

Die verfügbaren Modelle überprüfen:

for m in genai.list_models():
    if 'generateContent' in m.supported_generation_methods:
        print(m.name)

Nach dem Login kopieren

Zugriff auf Gemini 1.5 Pro:

model = genai.GenerativeModel('gemini-1.5-pro-latest')

Nach dem Login kopieren

Machen Sie eine einfache Textaufforderung:

response = model.generate_content("Please provide a list of the most influential people in the world.")
print(response.text)

Nach dem Login kopieren

Gemini 1.5 Pro API Tutorial: Getting Started With Google's LLM

Gemini AI bietet mehrere Antwortkandidaten; Wählen Sie den besten.

Gemini 1.5 Pro API Tutorial: Getting Started With Google's LLM

Bildaufforderung mit Gemini 1.5 Pro

zeigen wir die Bildverarbeitung. Angenommen, Sie haben ein Bild namens "Bookshelf.jpeg":

text_prompt = "List all the books and help me organize them into three categories."
bookshelf_image = Image.open('bookshelf.jpeg')
prompt = [text_prompt, bookshelf_image]
response = model.generate_content(prompt)
Markdown(response.text)

Nach dem Login kopieren

Gemini 1.5 Pro API Tutorial: Getting Started With Google's LLM

Schlussfolgerung

Gemini 1.5 Pro mit seinem erweiterten Kontextfenster und multimodalen Funktionen bietet ein leistungsstarkes Tool für verschiedene Anwendungen. Die API bietet die Flexibilität, mit verschiedenen Datentypen zu arbeiten, was es zu einem wertvollen Vorteil für Entwickler macht. Um Ihr KI -Wissen zu fördern, betrachten Sie diese Fähigkeitsspur: KI Fundamentals Skill Track .

Das obige ist der detaillierte Inhalt vonGemini 1.5 Pro API Tutorial: Erste Schritte mit Google ' s LLM. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!