Gemini 2.0 Flash: Schritt-für-Schritt-Tutorial mit Demo-Projekt-KI-php.cn

Gemini 2.0 Flash: Schritt-für-Schritt-Tutorial mit Demo-Projekt

尊渡假赌尊渡假赌尊渡假赌

Freigeben： 2025-03-02 09:33:09

Original

426 Leute haben es durchsucht

Gemini 2.0 Flash: Step-by-Step Tutorial With Demo Project

Googles Gemini 2.0 mit dem leistungsstarken Gemini 2.0 -Flash -Modell verbessert die Bild- und Audioverarbeitung erheblich. Dieses Tutorial führt Sie durch den Aufbau eines visuellen Assistenten, der auf dem Bildschirminhalt interpretiert und verwandte Fragen beantwortet wird.

Hier ist eine Demo des Projekts:

Schritt 2: Einrichten der Entwicklungsumgebung

Dieses Projekt verwendet mehrere Python -Pakete: google-genai, pyautogui, python-dotenv, sounddevice und numpy. Installieren Sie sie mit PIP:

pip install google-genai pyautogui python-dotenv sounddevice numpy

Nach dem Login kopieren

Verwenden Sie alternativ eine Conda -Umgebung:

conda create --name gemini python=3.11
conda activate gemini
pip install -r requirements.txt

Nach dem Login kopieren

(unter der Annahme requirements.txt listet die erforderlichen Pakete an).

Schritt 3: Erstellen eines textbasierten Chatbots

Dieser Abschnitt zeigt, dass das Erstellen eines Befehlszeilen-Chatbots mit dem Gemini 2-Flash-Modell von Google und der google.genai -Bibliothek erstellt wird. Siehe die offizielle Dokumentation von Gemini 2.0 zur Fehlerbehebung. Der vollständige Code befindet sich in text.py (Github -Repository).

Client -Initialisierung: Laden Sie Ihren API -Schlüssel sicher und initialisieren Sie den Google Genai -Client mit python-dotenv, um Umgebungsvariablen aus einer .env -Datei zu verwalten:

from google import genai
from dotenv import load_dotenv
import os

load_dotenv()
client = genai.Client(api_key=os.getenv("GOOGLE_API_KEY"), http_options={"api_version": "v1alpha"})
print("Connected to the AI model!")

Nach dem Login kopieren

Asynchrone API -Aufrufe: Verwenden Sie asyncio für effiziente asynchrone Anforderungen:

import asyncio

async def main():
    # ... (client initialization as above) ...
    async with client.aio.live.connect(model="gemini-2.0-flash-exp", config={"response_modalities": ["TEXT"]}) as session:
        # ... (send and receive messages) ...

asyncio.run(main())

Nach dem Login kopieren

Interaktiver Chat: Verbessern Sie den Chatbot mit einer Schleife für die kontinuierliche Benutzerinteraktion und beenden Sie, wenn der Benutzer "beenden". Diese verbesserte Version ermöglicht Multi-Turn-Gespräche.

Schritt 4: Integration des Audio -Modus

Audioantworten aktivieren, indem Sie den Code ändern:

importieren sounddevice und numpy.
set config = {"response_modalities": ["AUDIO"]}.
Audio -Streams verwalten mit sounddevice.OutputStream.
Audiodaten aus Antworten verarbeiten und in den Audio -Stream schreiben. (Siehe audio.py im Github -Repository für den vollständigen Code).

Schritt 5: Erweiterung der Funktionalität mit Tools

Gemini 2.0 ermöglicht die Integration der Werkzeuge. Dieses Beispiel zeigt ein Dateilesen-Tool:

Funktionsdefinition:

def load_file_content(filename):
    try:
        with open(filename, "rt") as f:
            return {"result": f.read()}
    except Exception as e:
        return {"error": "Could not load file content"}

Nach dem Login kopieren

Schema -Definition: Definieren Sie ein Schema für die Funktion, einschließlich Name, Beschreibung, Parameter und Ausgabe.
Werkzeugregistrierung: Geben Sie das Schema für die Modellkonfiguration an: config = {"tools": [{"function_declarations": [load_file_content_schema]}], "response_modalities": ["TEXT"]}.
Funktionsaufrufhandhabung: Prozesswerkzeugaufrufe aus dem Modell, führen Sie die entsprechende Funktion aus und senden Sie das Ergebnis zurück. (Siehe tool.py und tool_spec.py im Repository). Das Beispiel zeigt auch, wie man integrierte Tools wie google_search und code_execution.
verwendet

Schritt 6: Erstellen eines visuellen Assistenten

In diesem Abschnitt wird beschrieben, dass ein visueller Assistent erstellt wird, der Screenshots analysiert. Aufgrund von API-Einschränkungen verwendet dies einen synchronen Anforderungs-Response-Workflow.

Synchrone Anforderung: Verwenden Sie client.models.generate_content für die synchrone Bildverarbeitung.
Bildhandhabung: Verwenden Sie PIL, um Bilder zu laden und zu ändern.
Screenshot Capture: Verwenden Sie pyautogui, um Screenshots zu erfassen.
Implementierung der visuellen Assistenten: Screenshot -Erfassung, Bildverarbeitung und Umformung kombinieren, um einen interaktiven visuellen Assistenten zu erstellen. Geben Sie ein system_instruction ein, um das Terminalfenster zu ignorieren. (Siehe vision.py im Repository).

Schlussfolgerung

Dieses Tutorial zeigt die Funktionen von Gemini 2.0 Flash, Chatbots mit Text und Audio zu erstellen, Tools für erweiterte Funktionen zu integrieren und einen visuellen Assistenten zu erstellen. Während die aktuelle API Einschränkungen aufweist, ist das Potenzial für multimodale Echtzeitanwendungen aufregend. Weitere Untersuchungen können die Objekterkennung von Gemini 2.0 und die 3D -Verständnisfunktionen beinhalten.

Das obige ist der detaillierte Inhalt vonGemini 2.0 Flash: Schritt-für-Schritt-Tutorial mit Demo-Projekt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!