Erstellung einer multimodalen KI -Anwendung mit Gemini 2.0 Pro-KI-php.cn

Erstellung einer multimodalen KI -Anwendung mit Gemini 2.0 Pro

Jennifer Aniston

Freigeben： 2025-02-28 16:37:10

Original

163 Leute haben es durchsucht

Google Gemini 2.0 Pro: Ein tiefes Eintauchen in multimodale KI -Funktionen und -Anployment

Google hat Gemini 2.0 Pro, sein bisher fortschrittlichste KI -Modell vorgestellt. Derzeit in experimentellen Stadien erfolgt der Zugriff über API für Entwickler. Dieses leistungsstarke Modell glänzt in Codierung und komplexem Denken und bietet ein massives 2 -Millionen -Token -Kontextfenster, um umfangreiche Informationen zu verarbeiten. Die Fähigkeit, die Google -Suche zu nutzen und Code auszuführen, trägt der Vielseitigkeit bei.

Dieses Tutorial zeigt, wie man mit dem Genai Python-Paket von Google auf Gemini 2.0 Pros zugreifen, eine benutzerfreundliche Gradio-Anwendung erstellt und es zum Umarmen von Gesichtsräumen für den öffentlichen Zugriff bereitstellt. Für die vergleichende Analyse gegen OpenAI- und Deepseek -Modelle finden Sie in unserem Leitfaden zu Gemini 2.0 Flash Thinking Experimental. Das Tutorial von Adel Nehme bietet weitere Einblicke in den Aufbau multimodaler Apps mit Gemini 2.0:

Einrichten von Gemini 2.0 Pro

Zugriff auf Gemini 2.0 Pro erfolgt ausschließlich über Google AI Studio und erfordert ein Google -Konto.

Google AI Studio Login: Greifen Sie auf die Google AI Studio -Website zu und melden Sie sich an.
API -Schlüsselgenerierung: Navigieren Sie zum Dashboard, suchen Sie und klicken Sie auf "API -Schlüssel abrufen", gefolgt von "API -Taste erstellen".

Quelle: Google AI Studio

Umgebungsvariable: Stellen Sie die Umgebungsvariable GEMINI_API_KEY auf Ihren neu generierten Schlüssel ein.
Python -Paket -Installation: Installieren Sie die erforderlichen Pakete mit:

pip install google-genai gradio

Nach dem Login kopieren

Erkundung von Gemini 2.0 Pro -Funktionen

Nutzen wir den Gemini Python -Client, um seine Funktionen zu untersuchen: Text, Bild, Audio und Dokument sowie die Codeausführung.

Textgenerierung: Der folgende Code-Snippet zeigt die Textgenerierung anhand einer Streaming-Antwort für Echtzeit-Feedback:

pip install google-genai gradio

Nach dem Login kopieren

Bildverständnis: Mit Kissen können wir Bilder verarbeiten:

import os
from google import genai

API_KEY = os.environ.get("GEMINI_API_KEY")
client = genai.Client(api_key=API_KEY)

response = client.models.generate_content_stream(
    model="gemini-2.0-pro-exp-02-05",
    contents=["Explain how the Stock Market works"])
for chunk in response:
    print(chunk.text, end="")

Nach dem Login kopieren

Audioverständnis: Gemini 2.0 Pro verarbeitet direkt Audio:

from google import genai
from google.genai import types
import PIL.Image

image = PIL.Image.open('image.png')
response = client.models.generate_content_stream(
    model="gemini-2.0-pro-exp-02-05",
    contents=["Describe this image", image])
for chunk in response:
    print(chunk.text, end="")

Nach dem Login kopieren

Dokumentverständnis: Verarbeiten Sie PDFs ohne Langchain oder Lappen direkt:

with open('audio.wav', 'rb') as f:
    audio_bytes = f.read()

response = client.models.generate_content_stream(
  model='gemini-2.0-pro-exp-02-05',
  contents=[
    'Describe this audio',
    types.Part.from_bytes(
      data=audio_bytes,
      mime_type='audio/wav',
    )
  ]
)

for chunk in response:
    print(chunk.text, end="")

Nach dem Login kopieren

Codegenerierung und -ausführung: Gemini 2.0 Pros herausragende Funktion ist die Fähigkeit, Code in der API zu generieren und auszuführen:

from google import genai
from google.genai import types
import pathlib

prompt = "Summarize this document"
response = client.models.generate_content_stream(
  model="gemini-2.0-pro-exp-02-05",
  contents=[
      types.Part.from_bytes(
        data=pathlib.Path('cv.pdf').read_bytes(),
        mime_type='application/pdf',
      ),
      prompt])

for chunk in response:
    print(chunk.text, end="")

Nach dem Login kopieren

(Hinweis: Der vollständige Code für die Gradio -Anwendung, das Bildanzeigen und die detaillierte Fehlerbehandlung sind im im Originaltext erwähnten Github -Repository verfügbar. Diese Antwort ist eine kondensierte Version für Klarheit.)

Erstellen und Bereitstellen der Gradio -Anwendung

Das bereitgestellte GitHub-Repository (Gemini-2-pro-Chat) enthält den Gradio-Anwendungscode. Führen Sie nach dem Klonen und Einrichten der Umgebung python app.py lokal aus. Bei der Bereitstellung des Umarmungsbereichs können Sie einen neuen Speicherplatz erstellen, das Repository klonen, eine requirements.txt -Datei (mit google-genai==1.0.0 enthalten), die Anweisung README.md ändert und die Änderungen drücken. Denken Sie daran, Ihr GEMINI_API_KEY als Geheimnis in den Einstellungen der umarmenden Gesichtsräume hinzuzufügen.

Schlussfolgerung

Gemini 2.0 Pro vereinfacht die Erstellung von Hochleistungs-AI-Anwendungen. Seine multimodalen Funktionen und Code-Ausführungsfunktionen sind Game-Changer. Denken Sie zwar kostenlos mit Nutzungsgrenzen, aber denken Sie daran, die Nutzungsbedingungen von Google zu halten. Dieses Tutorial bietet einen umfassenden Leitfaden zur Nutzung seiner Leistung und zur Bereitstellung von Anwendungen in der Cloud.

Das obige ist der detaillierte Inhalt vonErstellung einer multimodalen KI -Anwendung mit Gemini 2.0 Pro. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!