Gemini 2.0 Proを使用したマルチモーダルAIアプリケーションの構築-AI-php.cn

Gemini 2.0 Proを使用したマルチモーダルAIアプリケーションの構築

Jennifer Aniston

リリース： 2025-02-28 16:37:10

オリジナル

163 人が閲覧しました

Google's Gemini 2.0 Pro：マルチモーダルAI機能と展開に深く潜ります

GoogleはGemini 2.0 Proを発表しました。これは、最も高度なAIモデルです。現在、実験段階では、アクセスは開発者向けのAPI経由です。この強力なモデルは、コーディングと複雑な推論に輝いており、広範な情報を処理するための200万台のトークンコンテキストウィンドウを誇っています。 Google検索と実行コードを活用する能力は、その汎用性に追加されます。

このチュートリアルでは、GoogleのGenai Pythonパッケージを使用してGemini 2.0 Proの機能にアクセスし、ユーザーフレンドリーなグラデーションアプリケーションを構築し、パブリックアクセスのためにフェイススペースを抱き締めるために展開する方法を示しています。 OpenaiおよびDeepseekモデルとの比較分析については、Gemini 2.0 Flash Thinking Experimentalのガイドを参照してください。 Adel Nehmeのチュートリアルでは、Gemini 2.0：

を使用してマルチモーダルアプリの構築に関するさらなる洞察を提供します。

GEMINI 2.0 Pro のセットアップ

Gemini 2.0 Proへのアクセスは、Google AI Studioを介してのみであり、Googleアカウントが必要です。

Google AI Studio Login：
Google AI Studio Webサイトにアクセスしてログインします。
ダッシュボードに移動し、[APIキーを取得]を見つけてクリックし、「APIキーの作成」が続きます。」

出典：Google AI Studio

環境変数を新しく生成されたキーに設定します。
GEMINI_API_KEYpythonパッケージのインストール：
使用を使用して必要なパッケージをインストールします
gemini 2.0 pro機能の探索

ジェミニPythonクライアントを利用して、テキスト、画像、オーディオ、ドキュメント処理、コードの実行とともに機能を調査しましょう。

テキスト生成：次のコードスニペットは、リアルタイムフィードバックのストリーミング応答を使用してテキスト生成を実証します：

pip install google-genai gradio

ログイン後にコピー

画像の理解：枕を使用して、画像を処理できます：

import os
from google import genai

API_KEY = os.environ.get("GEMINI_API_KEY")
client = genai.Client(api_key=API_KEY)

response = client.models.generate_content_stream(
    model="gemini-2.0-pro-exp-02-05",
    contents=["Explain how the Stock Market works"])
for chunk in response:
    print(chunk.text, end="")

ログイン後にコピー

オーディオの理解：gemini 2.0 proは直接処理されますオーディオ：

from google import genai
from google.genai import types
import PIL.Image

image = PIL.Image.open('image.png')
response = client.models.generate_content_stream(
    model="gemini-2.0-pro-exp-02-05",
    contents=["Describe this image", image])
for chunk in response:
    print(chunk.text, end="")

ログイン後にコピー

ドキュメントの理解：LangchainまたはragなしでPDFを直接処理：

with open('audio.wav', 'rb') as f:
    audio_bytes = f.read()

response = client.models.generate_content_stream(
  model='gemini-2.0-pro-exp-02-05',
  contents=[
    'Describe this audio',
    types.Part.from_bytes(
      data=audio_bytes,
      mime_type='audio/wav',
    )
  ]
)

for chunk in response:
    print(chunk.text, end="")

ログイン後にコピー

コード生成と実行： gemini 2.0 proの傑出した機能は、API内でコードを生成および実行する機能です：

from google import genai
from google.genai import types
import pathlib

prompt = "Summarize this document"
response = client.models.generate_content_stream(
  model="gemini-2.0-pro-exp-02-05",
  contents=[
      types.Part.from_bytes(
        data=pathlib.Path('cv.pdf').read_bytes(),
        mime_type='application/pdf',
      ),
      prompt])

for chunk in response:
    print(chunk.text, end="")

ログイン後にコピー

（注：グラデーションアプリケーション、画像表示、および詳細なエラー処理の完全なコードは、元のテキストで言及されているGitHubリポジトリで利用できます。この応答は、明確にするための凝縮バージョンです。

グラデーションアプリケーションの構築と展開

提供されたGithubリポジトリ（Gemini-2-Pro-chat）には、グラデーションアプリケーションコードが含まれています。環境をクローニングしてセットアップした後、

局所的に実行します。フェイススペースを抱き締めるための展開には、新しいスペースの作成、リポジトリのクローン化、

ファイルの追加（python app.pyを含む）、指示に従ってrequirements.txtを変更し、変更をプッシュすることが含まれます。あなたのgoogle-genai==1.0.0を抱きしめるフェイススペースの設定の秘密として追加することを忘れないでください。 README.mdGEMINI_API_KEY結論

Gemini 2.0 Proは、高性能AIアプリケーションの作成を簡素化します。マルチモーダル機能とコード実行機能は、ゲームチェンジャーです。現在、使用制限はありませんが、Googleの利用規約を遵守することを忘れないでください。このチュートリアルは、そのパワーを活用し、アプリケーションをクラウドに展開するための包括的なガイドを提供します。

以上がGemini 2.0 Proを使用したマルチモーダルAIアプリケーションの構築の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。