Rumah > Peranti teknologi > AI > Membina aplikasi AI multimodal dengan Gemini 2.0 Pro

Membina aplikasi AI multimodal dengan Gemini 2.0 Pro

Jennifer Aniston
Lepaskan: 2025-02-28 16:37:10
asal
162 orang telah melayarinya

Google's Gemini 2.0 Pro: menyelam mendalam ke dalam kemampuan dan penempatan AI multimodal

Google telah melancarkan Gemini 2.0 Pro, model AI yang paling maju. Pada masa ini dalam peringkat eksperimen, akses adalah melalui API untuk pemaju. Model yang kuat ini bersinar dalam pengekodan dan penalaran yang kompleks, yang membanggakan tetingkap konteks 2 juta token besar untuk mengendalikan maklumat yang luas. Keupayaannya untuk memanfaatkan carian Google dan melaksanakan kod menambah kepelbagaiannya.

Tutorial ini menunjukkan cara mengakses ciri Gemini 2.0 Pro menggunakan pakej Genai Python Google, membina aplikasi Gradio yang mesra pengguna, dan menggunakannya untuk memeluk ruang muka untuk akses awam. Untuk analisis perbandingan terhadap model Openai dan DeepSeek, lihat panduan kami mengenai Percubaan Pemikiran Flash Gemini 2.0. Tutorial Adel Nehme menawarkan pandangan lanjut ke dalam membina aplikasi multimodal dengan Gemini 2.0:

Menyediakan Gemini 2.0 Pro

Akses ke Gemini 2.0 Pro secara eksklusif melalui Google AI Studio, yang memerlukan akaun Google.

  1. Google AI Studio Login: Akses laman web Google AI Studio dan log masuk.

  2. Generasi utama API: Navigasi ke papan pemuka, cari, dan klik "Get API Key," diikuti dengan "Buat Kunci API."

Building Multimodal AI Application with Gemini 2.0 Pro

Sumber: Google AI Studio

  1. Pemboleh ubah persekitaran: Tetapkan pembolehubah persekitaran GEMINI_API_KEY ke kunci yang baru dijana.

  2. pemasangan pakej python: Pasang pakej yang diperlukan menggunakan:

pip install google-genai gradio
Salin selepas log masuk
Salin selepas log masuk

meneroka keupayaan Gemini 2.0 Pro

mari kita gunakan klien Gemini Python untuk meneroka ciri -cirinya: teks, imej, audio, dan pemprosesan dokumen, bersama dengan pelaksanaan kod.

  1. Generasi teks: Coretan kod berikut menunjukkan penjanaan teks menggunakan respons streaming untuk maklum balas masa nyata:
pip install google-genai gradio
Salin selepas log masuk
Salin selepas log masuk
  1. pemahaman imej: menggunakan bantal, kita boleh memproses imej:
import os
from google import genai

API_KEY = os.environ.get("GEMINI_API_KEY")
client = genai.Client(api_key=API_KEY)

response = client.models.generate_content_stream(
    model="gemini-2.0-pro-exp-02-05",
    contents=["Explain how the Stock Market works"])
for chunk in response:
    print(chunk.text, end="")
Salin selepas log masuk
  1. pemahaman audio: Gemini 2.0 Pro secara langsung memproses audio:
from google import genai
from google.genai import types
import PIL.Image

image = PIL.Image.open('image.png')
response = client.models.generate_content_stream(
    model="gemini-2.0-pro-exp-02-05",
    contents=["Describe this image", image])
for chunk in response:
    print(chunk.text, end="")
Salin selepas log masuk
  1. Dokumen Memahami: Secara langsung memproses PDFs tanpa langchain atau rag:
with open('audio.wav', 'rb') as f:
    audio_bytes = f.read()

response = client.models.generate_content_stream(
  model='gemini-2.0-pro-exp-02-05',
  contents=[
    'Describe this audio',
    types.Part.from_bytes(
      data=audio_bytes,
      mime_type='audio/wav',
    )
  ]
)

for chunk in response:
    print(chunk.text, end="")
Salin selepas log masuk
  1. Generasi Kod dan Pelaksanaan:
from google import genai
from google.genai import types
import pathlib

prompt = "Summarize this document"
response = client.models.generate_content_stream(
  model="gemini-2.0-pro-exp-02-05",
  contents=[
      types.Part.from_bytes(
        data=pathlib.Path('cv.pdf').read_bytes(),
        mime_type='application/pdf',
      ),
      prompt])

for chunk in response:
    print(chunk.text, end="")
Salin selepas log masuk

(Nota: Kod lengkap untuk aplikasi Gradio, paparan imej, dan pengendalian ralat terperinci boleh didapati di repositori GitHub yang disebutkan dalam teks asal. Sambutan ini adalah versi yang dipelopori untuk kejelasan.) Membangun dan menggunakan aplikasi Gradio

Repositori GitHub yang disediakan (Gemini-2-Pro-CHAT) mengandungi kod aplikasi Gradio. Selepas pengklonan dan menubuhkan persekitaran, jalankan secara tempatan. Penyebaran untuk memeluk ruang muka melibatkan mewujudkan ruang baru, mengkloning repositori, menambah fail

(yang mengandungi

), mengubahsuai python app.py seperti yang diarahkan, dan menolak perubahan. Ingatlah untuk menambah requirements.txt anda sebagai rahsia dalam tetapan ruang muka yang memeluk. google-genai==1.0.0 README.md GEMINI_API_KEY Kesimpulan

Gemini 2.0 Pro memudahkan penciptaan aplikasi AI berprestasi tinggi. Keupayaan multimodal dan ciri pelaksanaan kodnya adalah penukar permainan. Walaupun kini percuma dengan had penggunaan, ingatlah untuk mematuhi terma perkhidmatan Google. Tutorial ini menyediakan panduan yang komprehensif untuk memanfaatkan kuasa dan menggunakan aplikasi ke awan.

Atas ialah kandungan terperinci Membina aplikasi AI multimodal dengan Gemini 2.0 Pro. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan