Gemini 2.0 Flash: Tutorial Langkah demi Langkah dengan Projek Demo-AI-php.cn

Gemini 2.0 Flash: Tutorial Langkah demi Langkah dengan Projek Demo

尊渡假赌尊渡假赌尊渡假赌

Lepaskan： 2025-03-02 09:33:09

asal

422 orang telah melayarinya

Gemini 2.0 Flash: Step-by-Step Tutorial With Demo Project

Google's Gemini 2.0, yang menampilkan model Flash Gemini 2.0 yang kuat, meningkatkan imej dan pemprosesan audio dengan ketara. Tutorial ini membimbing anda melalui membina pembantu visual yang mampu menafsirkan kandungan skrin dan menjawab soalan yang berkaitan.

inilah demo projek:

Langkah 2: Menyediakan persekitaran pembangunan

Projek ini menggunakan beberapa pakej python:

, google-genai, pyautogui, python-dotenv, dan sounddevice. Pasangnya menggunakan PIP: numpy

pip install google-genai pyautogui python-dotenv sounddevice numpy

Salin selepas log masuk

Sebagai alternatif, gunakan persekitaran conda:

conda create --name gemini python=3.11
conda activate gemini
pip install -r requirements.txt

Salin selepas log masuk

(dengan asumsi

menyenaraikan pakej yang diperlukan). requirements.txt

Langkah 3: Membina chatbot berasaskan teks

Bahagian ini menunjukkan mencipta chatbot baris arahan menggunakan model Flash Gemini 2 Google dan perpustakaan

. Rujuk kepada dokumentasi rasmi Gemini 2.0 untuk menyelesaikan masalah. Kod lengkap berada di google.genai (repositori github). text.py

Inisialisasi klien: dengan selamat memuatkan kunci API anda dan memulakan klien Google Guei menggunakan untuk menguruskan pembolehubah persekitaran dari fail python-dotenv: .env

from google import genai
from dotenv import load_dotenv
import os

load_dotenv()
client = genai.Client(api_key=os.getenv("GOOGLE_API_KEY"), http_options={"api_version": "v1alpha"})
print("Connected to the AI model!")

Salin selepas log masuk

Panggilan API Asynchronous: Gunakan untuk permintaan asynchronous yang cekap: asyncio

import asyncio

async def main():
    # ... (client initialization as above) ...
    async with client.aio.live.connect(model="gemini-2.0-flash-exp", config={"response_modalities": ["TEXT"]}) as session:
        # ... (send and receive messages) ...

asyncio.run(main())

Salin selepas log masuk

sembang interaktif: Meningkatkan chatbot dengan gelung untuk interaksi pengguna yang berterusan, keluar apabila pengguna jenis "keluar". Versi yang lebih baik ini membolehkan perbualan berbilang pusingan.

Langkah 4: Mengintegrasikan mod audio

Dayakan respons audio dengan mengubah kod:

dan sounddevice. numpy
. config = {"response_modalities": ["AUDIO"]}
. sounddevice.OutputStream
dalam repositori github untuk kod lengkap). audio.py

Langkah 5: Memperluas fungsi dengan alat

Gemini 2.0 membolehkan integrasi alat. Contoh ini menunjukkan alat pembacaan fail:

Definisi fungsi:

def load_file_content(filename):
    try:
        with open(filename, "rt") as f:
            return {"result": f.read()}
    except Exception as e:
        return {"error": "Could not load file content"}

Salin selepas log masuk

Definisi skema: Tentukan skema untuk fungsi, termasuk nama, penerangan, parameter, dan output.
Pendaftaran Alat: Sediakan skema kepada konfigurasi model: config = {"tools": [{"function_declarations": [load_file_content_schema]}], "response_modalities": ["TEXT"]}.
Pengendalian panggilan fungsi: Panggilan alat proses dari model, laksanakan fungsi yang sepadan, dan hantar hasilnya kembali. (Lihat tool.py dan tool_spec.py dalam repositori). Contohnya juga menunjukkan cara menggunakan alat terbina dalam seperti google_search dan code_execution.

Langkah 6: Mewujudkan Pembantu Visual

Butiran bahagian ini membina pembantu visual yang menganalisis tangkapan skrin. Oleh kerana batasan API, ini menggunakan aliran kerja tindak balas permintaan.

Permintaan segerak: Gunakan client.models.generate_content untuk pemprosesan imej segerak.
Pengendalian imej: Gunakan PIL untuk memuatkan dan mengubah saiz imej.
tangkapan tangkapan skrin: menggunakan pyautogui untuk menangkap tangkapan skrin.
Pelaksanaan Pembantu Visual: Campurkan tangkapan tangkapan skrin, pemprosesan imej, dan pengendalian segera untuk membuat pembantu visual interaktif. Sertakan system_instruction untuk mengabaikan tetingkap terminal. (Lihat vision.py di repositori).

Kesimpulan

Tutorial ini menunjukkan keupayaan Gemini 2.0 Flash dalam membina chatbots dengan teks dan audio, mengintegrasikan alat untuk fungsi lanjutan, dan mewujudkan pembantu visual. Walaupun API semasa mempunyai batasan, potensi aplikasi masa nyata multimodal adalah menarik. Eksplorasi lanjut boleh melibatkan menggunakan pengesanan objek Gemini 2.0 dan keupayaan pemahaman 3D.

Atas ialah kandungan terperinci Gemini 2.0 Flash: Tutorial Langkah demi Langkah dengan Projek Demo. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!