Google's Gemini 2.0 Pro: menyelam mendalam ke dalam kemampuan dan penempatan AI multimodal
Google telah melancarkan Gemini 2.0 Pro, model AI yang paling maju. Pada masa ini dalam peringkat eksperimen, akses adalah melalui API untuk pemaju. Model yang kuat ini bersinar dalam pengekodan dan penalaran yang kompleks, yang membanggakan tetingkap konteks 2 juta token besar untuk mengendalikan maklumat yang luas. Keupayaannya untuk memanfaatkan carian Google dan melaksanakan kod menambah kepelbagaiannya.
Tutorial ini menunjukkan cara mengakses ciri Gemini 2.0 Pro menggunakan pakej Genai Python Google, membina aplikasi Gradio yang mesra pengguna, dan menggunakannya untuk memeluk ruang muka untuk akses awam. Untuk analisis perbandingan terhadap model Openai dan DeepSeek, lihat panduan kami mengenai Percubaan Pemikiran Flash Gemini 2.0. Tutorial Adel Nehme menawarkan pandangan lanjut ke dalam membina aplikasi multimodal dengan Gemini 2.0:
Menyediakan Gemini 2.0 Pro
Akses ke Gemini 2.0 Pro secara eksklusif melalui Google AI Studio, yang memerlukan akaun Google.
Google AI Studio Login: Akses laman web Google AI Studio dan log masuk.
Generasi utama API: Navigasi ke papan pemuka, cari, dan klik "Get API Key," diikuti dengan "Buat Kunci API."
Sumber: Google AI Studio
Pemboleh ubah persekitaran: Tetapkan pembolehubah persekitaran GEMINI_API_KEY
ke kunci yang baru dijana.
pemasangan pakej python: Pasang pakej yang diperlukan menggunakan:
pip install google-genai gradio
meneroka keupayaan Gemini 2.0 Pro
mari kita gunakan klien Gemini Python untuk meneroka ciri -cirinya: teks, imej, audio, dan pemprosesan dokumen, bersama dengan pelaksanaan kod.
pip install google-genai gradio
import os from google import genai API_KEY = os.environ.get("GEMINI_API_KEY") client = genai.Client(api_key=API_KEY) response = client.models.generate_content_stream( model="gemini-2.0-pro-exp-02-05", contents=["Explain how the Stock Market works"]) for chunk in response: print(chunk.text, end="")
from google import genai from google.genai import types import PIL.Image image = PIL.Image.open('image.png') response = client.models.generate_content_stream( model="gemini-2.0-pro-exp-02-05", contents=["Describe this image", image]) for chunk in response: print(chunk.text, end="")
with open('audio.wav', 'rb') as f: audio_bytes = f.read() response = client.models.generate_content_stream( model='gemini-2.0-pro-exp-02-05', contents=[ 'Describe this audio', types.Part.from_bytes( data=audio_bytes, mime_type='audio/wav', ) ] ) for chunk in response: print(chunk.text, end="")
from google import genai from google.genai import types import pathlib prompt = "Summarize this document" response = client.models.generate_content_stream( model="gemini-2.0-pro-exp-02-05", contents=[ types.Part.from_bytes( data=pathlib.Path('cv.pdf').read_bytes(), mime_type='application/pdf', ), prompt]) for chunk in response: print(chunk.text, end="")
(Nota: Kod lengkap untuk aplikasi Gradio, paparan imej, dan pengendalian ralat terperinci boleh didapati di repositori GitHub yang disebutkan dalam teks asal. Sambutan ini adalah versi yang dipelopori untuk kejelasan.) Membangun dan menggunakan aplikasi Gradio
Repositori GitHub yang disediakan (Gemini-2-Pro-CHAT) mengandungi kod aplikasi Gradio. Selepas pengklonan dan menubuhkan persekitaran, jalankan secara tempatan. Penyebaran untuk memeluk ruang muka melibatkan mewujudkan ruang baru, mengkloning repositori, menambah fail
(yang mengandungi), mengubahsuai python app.py
seperti yang diarahkan, dan menolak perubahan. Ingatlah untuk menambah requirements.txt
anda sebagai rahsia dalam tetapan ruang muka yang memeluk. google-genai==1.0.0
README.md
GEMINI_API_KEY
Kesimpulan
Gemini 2.0 Pro memudahkan penciptaan aplikasi AI berprestasi tinggi. Keupayaan multimodal dan ciri pelaksanaan kodnya adalah penukar permainan. Walaupun kini percuma dengan had penggunaan, ingatlah untuk mematuhi terma perkhidmatan Google. Tutorial ini menyediakan panduan yang komprehensif untuk memanfaatkan kuasa dan menggunakan aplikasi ke awan.
Atas ialah kandungan terperinci Membina aplikasi AI multimodal dengan Gemini 2.0 Pro. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!