ホームページ > テクノロジー周辺機器 > AI > Gemini 2.0 Proを使用したマルチモーダルAIアプリケーションの構築

Gemini 2.0 Proを使用したマルチモーダルAIアプリケーションの構築

Jennifer Aniston
リリース: 2025-02-28 16:37:10
オリジナル
163 人が閲覧しました

Google's Gemini 2.0 Pro:マルチモーダルAI機能と展開に深く潜ります

GoogleはGemini 2.0 Proを発表しました。これは、最も高度なAIモデルです。 現在、実験段階では、アクセスは開発者向けのAPI経由です。 この強力なモデルは、コーディングと複雑な推論に輝いており、広範な情報を処理するための200万台のトークンコンテキストウィンドウを誇っています。 Google検索と実行コードを活用する能力は、その汎用性に追加されます。

このチュートリアルでは、GoogleのGenai Pythonパッケージを使用してGemini 2.0 Proの機能にアクセスし、ユーザーフレンドリーなグラデーションアプリケーションを構築し、パブリックアクセスのためにフェイススペースを抱き締めるために展開する方法を示しています。 OpenaiおよびDeepseekモデルとの比較分析については、Gemini 2.0 Flash Thinking Experimentalのガイドを参照してください。 Adel Nehmeのチュートリアルでは、Gemini 2.0:

を使用してマルチモーダルアプリの構築に関するさらなる洞察を提供します。

GEMINI 2.0 Pro のセットアップ

Gemini 2.0 Proへのアクセスは、Google AI Studioを介してのみであり、Googleアカウントが必要です。

  1. Google AI Studio Login:

    Google AI Studio Webサイトにアクセスしてログインします。

  2. apiキー生成:
  3. ダッシュボードに移動し、[APIキーを取得]を見つけてクリックし、「APIキーの作成」が続きます。」

Building Multimodal AI Application with Gemini 2.0 Pro 出典:Google AI Studio

    環境変数:
  1. 環境変数を新しく生成されたキーに設定します。

    GEMINI_API_KEYpythonパッケージのインストール:

    使用を使用して必要なパッケージをインストールします
  2. gemini 2.0 pro機能の探索

ジェミニPythonクライアントを利用して、テキスト、画像、オーディオ、ドキュメント処理、コードの実行とともに機能を調査しましょう。
  1. テキスト生成:次のコードスニペットは、リアルタイムフィードバックのストリーミング応答を使用してテキスト生成を実証します:
pip install google-genai gradio
ログイン後にコピー
  1. 画像の理解:枕を使用して、画像を処理できます:
import os
from google import genai

API_KEY = os.environ.get("GEMINI_API_KEY")
client = genai.Client(api_key=API_KEY)

response = client.models.generate_content_stream(
    model="gemini-2.0-pro-exp-02-05",
    contents=["Explain how the Stock Market works"])
for chunk in response:
    print(chunk.text, end="")
ログイン後にコピー
  1. オーディオの理解:gemini 2.0 proは直接処理されますオーディオ:
from google import genai
from google.genai import types
import PIL.Image

image = PIL.Image.open('image.png')
response = client.models.generate_content_stream(
    model="gemini-2.0-pro-exp-02-05",
    contents=["Describe this image", image])
for chunk in response:
    print(chunk.text, end="")
ログイン後にコピー
  1. ドキュメントの理解:LangchainまたはragなしでPDFを直接処理:
with open('audio.wav', 'rb') as f:
    audio_bytes = f.read()

response = client.models.generate_content_stream(
  model='gemini-2.0-pro-exp-02-05',
  contents=[
    'Describe this audio',
    types.Part.from_bytes(
      data=audio_bytes,
      mime_type='audio/wav',
    )
  ]
)

for chunk in response:
    print(chunk.text, end="")
ログイン後にコピー
  1. コード生成と実行: gemini 2.0 proの傑出した機能は、API内でコードを生成および実行する機能です:
from google import genai
from google.genai import types
import pathlib

prompt = "Summarize this document"
response = client.models.generate_content_stream(
  model="gemini-2.0-pro-exp-02-05",
  contents=[
      types.Part.from_bytes(
        data=pathlib.Path('cv.pdf').read_bytes(),
        mime_type='application/pdf',
      ),
      prompt])

for chunk in response:
    print(chunk.text, end="")
ログイン後にコピー

(注:グラデーションアプリケーション、画像表示、および詳細なエラー処理の完全なコードは、元のテキストで言及されているGitHubリポジトリで利用できます。この応答は、明確にするための凝縮バージョンです。

グラデーションアプリケーションの構築と展開

提供されたGithubリポジトリ(Gemini-2-Pro-chat)には、グラデーションアプリケーションコードが含まれています。 環境をクローニングしてセットアップした後、

局所的に実行します。 フェイススペースを抱き締めるための展開には、新しいスペースの作成、リポジトリのクローン化、

ファイルの追加(python app.pyを含む)、指示に従ってrequirements.txtを変更し、変更をプッシュすることが含まれます。 あなたのgoogle-genai==1.0.0を抱きしめるフェイススペースの設定の秘密として追加することを忘れないでください。 README.mdGEMINI_API_KEY結論

Gemini 2.0 Proは、高性能AIアプリケーションの作成を簡素化します。 マルチモーダル機能とコード実行機能は、ゲームチェンジャーです。 現在、使用制限はありませんが、Googleの利用規約を遵守することを忘れないでください。 このチュートリアルは、そのパワーを活用し、アプリケーションをクラウドに展開するための包括的なガイドを提供します。

以上がGemini 2.0 Proを使用したマルチモーダルAIアプリケーションの構築の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート