Googles Gemini 2.0 mit dem leistungsstarken Gemini 2.0 -Flash -Modell verbessert die Bild- und Audioverarbeitung erheblich. Dieses Tutorial führt Sie durch den Aufbau eines visuellen Assistenten, der auf dem Bildschirminhalt interpretiert und verwandte Fragen beantwortet wird.
Hier ist eine Demo des Projekts:
Schritt 2: Einrichten der Entwicklungsumgebung
Dieses Projekt verwendet mehrere Python -Pakete: google-genai
, pyautogui
, python-dotenv
, sounddevice
und numpy
. Installieren Sie sie mit PIP:
pip install google-genai pyautogui python-dotenv sounddevice numpy
Verwenden Sie alternativ eine Conda -Umgebung:
conda create --name gemini python=3.11 conda activate gemini pip install -r requirements.txt
(unter der Annahme requirements.txt
listet die erforderlichen Pakete an).
Schritt 3: Erstellen eines textbasierten Chatbots
Dieser Abschnitt zeigt, dass das Erstellen eines Befehlszeilen-Chatbots mit dem Gemini 2-Flash-Modell von Google und der google.genai
-Bibliothek erstellt wird. Siehe die offizielle Dokumentation von Gemini 2.0 zur Fehlerbehebung. Der vollständige Code befindet sich in text.py
(Github -Repository).
python-dotenv
, um Umgebungsvariablen aus einer .env
-Datei zu verwalten: from google import genai from dotenv import load_dotenv import os load_dotenv() client = genai.Client(api_key=os.getenv("GOOGLE_API_KEY"), http_options={"api_version": "v1alpha"}) print("Connected to the AI model!")
asyncio
für effiziente asynchrone Anforderungen: import asyncio async def main(): # ... (client initialization as above) ... async with client.aio.live.connect(model="gemini-2.0-flash-exp", config={"response_modalities": ["TEXT"]}) as session: # ... (send and receive messages) ... asyncio.run(main())
Schritt 4: Integration des Audio -Modus
Audioantworten aktivieren, indem Sie den Code ändern:
sounddevice
und numpy
. config = {"response_modalities": ["AUDIO"]}
. sounddevice.OutputStream
. audio.py
im Github -Repository für den vollständigen Code). Schritt 5: Erweiterung der Funktionalität mit Tools
Gemini 2.0 ermöglicht die Integration der Werkzeuge. Dieses Beispiel zeigt ein Dateilesen-Tool:
def load_file_content(filename): try: with open(filename, "rt") as f: return {"result": f.read()} except Exception as e: return {"error": "Could not load file content"}
Schema -Definition: Definieren Sie ein Schema für die Funktion, einschließlich Name, Beschreibung, Parameter und Ausgabe.
Werkzeugregistrierung: Geben Sie das Schema für die Modellkonfiguration an: config = {"tools": [{"function_declarations": [load_file_content_schema]}], "response_modalities": ["TEXT"]}
.
Funktionsaufrufhandhabung: Prozesswerkzeugaufrufe aus dem Modell, führen Sie die entsprechende Funktion aus und senden Sie das Ergebnis zurück. (Siehe tool.py
und tool_spec.py
im Repository). Das Beispiel zeigt auch, wie man integrierte Tools wie google_search
und code_execution
.
Schritt 6: Erstellen eines visuellen Assistenten
In diesem Abschnitt wird beschrieben, dass ein visueller Assistent erstellt wird, der Screenshots analysiert. Aufgrund von API-Einschränkungen verwendet dies einen synchronen Anforderungs-Response-Workflow.
Synchrone Anforderung: Verwenden Sie client.models.generate_content
für die synchrone Bildverarbeitung.
Bildhandhabung: Verwenden Sie PIL, um Bilder zu laden und zu ändern.
Screenshot Capture: Verwenden Sie pyautogui
, um Screenshots zu erfassen.
Implementierung der visuellen Assistenten: Screenshot -Erfassung, Bildverarbeitung und Umformung kombinieren, um einen interaktiven visuellen Assistenten zu erstellen. Geben Sie ein system_instruction
ein, um das Terminalfenster zu ignorieren. (Siehe vision.py
im Repository).
Schlussfolgerung
Dieses Tutorial zeigt die Funktionen von Gemini 2.0 Flash, Chatbots mit Text und Audio zu erstellen, Tools für erweiterte Funktionen zu integrieren und einen visuellen Assistenten zu erstellen. Während die aktuelle API Einschränkungen aufweist, ist das Potenzial für multimodale Echtzeitanwendungen aufregend. Weitere Untersuchungen können die Objekterkennung von Gemini 2.0 und die 3D -Verständnisfunktionen beinhalten.
Das obige ist der detaillierte Inhalt vonGemini 2.0 Flash: Schritt-für-Schritt-Tutorial mit Demo-Projekt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!