Rumah > Peranti teknologi > AI > Gemini 2.0 Flash: Tutorial Langkah demi Langkah dengan Projek Demo

Gemini 2.0 Flash: Tutorial Langkah demi Langkah dengan Projek Demo

尊渡假赌尊渡假赌尊渡假赌
Lepaskan: 2025-03-02 09:33:09
asal
422 orang telah melayarinya

Gemini 2.0 Flash: Step-by-Step Tutorial With Demo Project

Google's Gemini 2.0, yang menampilkan model Flash Gemini 2.0 yang kuat, meningkatkan imej dan pemprosesan audio dengan ketara. Tutorial ini membimbing anda melalui membina pembantu visual yang mampu menafsirkan kandungan skrin dan menjawab soalan yang berkaitan.

inilah demo projek:

Langkah 2: Menyediakan persekitaran pembangunan

Projek ini menggunakan beberapa pakej python:

, google-genai, pyautogui, python-dotenv, dan sounddevice. Pasangnya menggunakan PIP: numpy

pip install google-genai pyautogui python-dotenv sounddevice numpy
Salin selepas log masuk
Sebagai alternatif, gunakan persekitaran conda:

conda create --name gemini python=3.11
conda activate gemini
pip install -r requirements.txt
Salin selepas log masuk
(dengan asumsi

menyenaraikan pakej yang diperlukan). requirements.txt

Langkah 3: Membina chatbot berasaskan teks

Bahagian ini menunjukkan mencipta chatbot baris arahan menggunakan model Flash Gemini 2 Google dan perpustakaan

. Rujuk kepada dokumentasi rasmi Gemini 2.0 untuk menyelesaikan masalah. Kod lengkap berada di google.genai (repositori github). text.py

  • Inisialisasi klien: dengan selamat memuatkan kunci API anda dan memulakan klien Google Guei menggunakan untuk menguruskan pembolehubah persekitaran dari fail python-dotenv: .env
from google import genai
from dotenv import load_dotenv
import os

load_dotenv()
client = genai.Client(api_key=os.getenv("GOOGLE_API_KEY"), http_options={"api_version": "v1alpha"})
print("Connected to the AI model!")
Salin selepas log masuk
  • Panggilan API Asynchronous: Gunakan untuk permintaan asynchronous yang cekap: asyncio
import asyncio

async def main():
    # ... (client initialization as above) ...
    async with client.aio.live.connect(model="gemini-2.0-flash-exp", config={"response_modalities": ["TEXT"]}) as session:
        # ... (send and receive messages) ...

asyncio.run(main())
Salin selepas log masuk
  • sembang interaktif: Meningkatkan chatbot dengan gelung untuk interaksi pengguna yang berterusan, keluar apabila pengguna jenis "keluar". Versi yang lebih baik ini membolehkan perbualan berbilang pusingan.

Langkah 4: Mengintegrasikan mod audio

Dayakan respons audio dengan mengubah kod:

    import
  1. dan sounddevice. numpy
  2. set
  3. . config = {"response_modalities": ["AUDIO"]}
  4. Mengurus aliran audio menggunakan
  5. . sounddevice.OutputStream
  6. Proses data audio dari respons dan tuliskannya ke aliran audio. (Lihat
  7. dalam repositori github untuk kod lengkap). audio.py

Langkah 5: Memperluas fungsi dengan alat

Gemini 2.0 membolehkan integrasi alat. Contoh ini menunjukkan alat pembacaan fail:

  • Definisi fungsi:
def load_file_content(filename):
    try:
        with open(filename, "rt") as f:
            return {"result": f.read()}
    except Exception as e:
        return {"error": "Could not load file content"}
Salin selepas log masuk
  • Definisi skema: Tentukan skema untuk fungsi, termasuk nama, penerangan, parameter, dan output.

  • Pendaftaran Alat: Sediakan skema kepada konfigurasi model: config = {"tools": [{"function_declarations": [load_file_content_schema]}], "response_modalities": ["TEXT"]}.

  • Pengendalian panggilan fungsi: Panggilan alat proses dari model, laksanakan fungsi yang sepadan, dan hantar hasilnya kembali. (Lihat tool.py dan tool_spec.py dalam repositori). Contohnya juga menunjukkan cara menggunakan alat terbina dalam seperti google_search dan code_execution.

Langkah 6: Mewujudkan Pembantu Visual

Butiran bahagian ini membina pembantu visual yang menganalisis tangkapan skrin. Oleh kerana batasan API, ini menggunakan aliran kerja tindak balas permintaan.

  • Permintaan segerak: Gunakan client.models.generate_content untuk pemprosesan imej segerak.

  • Pengendalian imej: Gunakan PIL untuk memuatkan dan mengubah saiz imej.

  • tangkapan tangkapan skrin: menggunakan pyautogui untuk menangkap tangkapan skrin.

  • Pelaksanaan Pembantu Visual: Campurkan tangkapan tangkapan skrin, pemprosesan imej, dan pengendalian segera untuk membuat pembantu visual interaktif. Sertakan system_instruction untuk mengabaikan tetingkap terminal. (Lihat vision.py di repositori).

Kesimpulan

Tutorial ini menunjukkan keupayaan Gemini 2.0 Flash dalam membina chatbots dengan teks dan audio, mengintegrasikan alat untuk fungsi lanjutan, dan mewujudkan pembantu visual. Walaupun API semasa mempunyai batasan, potensi aplikasi masa nyata multimodal adalah menarik. Eksplorasi lanjut boleh melibatkan menggunakan pengesanan objek Gemini 2.0 dan keupayaan pemahaman 3D.

Atas ialah kandungan terperinci Gemini 2.0 Flash: Tutorial Langkah demi Langkah dengan Projek Demo. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan