目次
タイトルとファイルアップローダー:
ホームページ テクノロジー周辺機器 AI llama 3.2 90bチュートリアル:retrylit&groqを備えた画像キャプションアプリ

llama 3.2 90bチュートリアル:retrylit&groqを備えた画像キャプションアプリ

Mar 01, 2025 am 10:28 AM

メタは、ラマ3.2 11B&90Bビジョンモデルを導入することにより、ラマエコシステムにマルチモダリティを最終的に追加しました。これらの2つのモデルは、テキストと画像の両方の処理に優れているため、90Bバージョンを使用してプロジェクトを構築するようになりました。 この記事では、私の作品を共有し、フロントエンド用のRestreamlitを使用してインタラクティブな画像キャプションアプリを構築し、キャプションを生成するためのエンジンとしてLlama 3.2 90bを使用してガイドします。

画像キャプションアプリにllama 3.2 90bを使用する理由

llama 3.2-vision 90bは、画像入力とテキスト入力の両方を含むタスク用に構築された最先端のマルチモーダル大手言語モデル(LLM)です。

視覚的推論、画像認識、画像キャプションなどの複雑なタスクに取り組む能力が際立っています。 60億の画像テキストペアの大規模なデータセットで訓練されています。

llama 3.2-visionは、テキストタスクの複数の言語をサポートしているため、アプリに最適です。ただし、英語は画像関連のアプリケーションの主な焦点です。その主要な機能により、Visual質問応答(VQA)、Document VQA、Image-Textの検索などのタスクに最適な選択肢になり、画像キャプションは傑出したアプリケーションの1つです。

これらの機能が、画像キャプションのような現実世界のアプリケーションにどのように変換されるかを調べてみましょう。

画像キャプションパイプライン

画像キャプションは、画像のコンテンツを要約する記述テキストを生成する自動化されたプロセスです。コンピュータービジョンと自然言語処理を組み合わせて、言語の視覚的詳細を解釈および表現します。

伝統的に、画像キャプションには複雑なパイプラインが必要であり、多くの場合、画像処理と言語生成のための個別の段階が含まれます。標準的なアプローチには、イメージの前処理、機能抽出、キャプション生成の3つの主要な手順が含まれます。

画像の前処理:通常、画像はサイズ変更、正規化され、時にはトリミングされて、モデルの入力仕様を確実に満たすようにします。

機能抽出:視覚機能が抽出され、画像内のオブジェクト、シーン、または関連する詳細を識別します。ほとんどのモデルでは、これには画像を解釈するための個別のビジョンモデルが必要であり、言語モデルが理解できる構造化されたデータを生成します。

キャプション生成:これらの抽出された機能は、言語モデルによって使用され、視覚データで識別されたオブジェクト、コンテキスト、および関係を組み合わせて、コヒーレントな説明を作成します。

llama 3.2 90bを使用すると、この伝統的に複雑なプロセスがより簡単になります。モデルのVision Adapterは、視覚機能をコア言語モデルに統合し、画像を直接解釈し、単純なプロンプトを介してキャプションを生成できるようにします。

そのアーキテクチャ内に横断層を埋め込むことにより、Llama 3.2 90Bを使用すると、ユーザーは単にモデルを促すだけで画像を説明できます。このシンプルさは、よりアクセスしやすく効率的な画像キャプションを可能にします。単一のプロンプトは、画像の本質を効果的にキャプチャする自然で記述的なキャプションを生成できます。

画像キャプションアプリの概要

Llama 3.2 90bのパワーを実現するために、フロントエンドにStreamlitを使用してシンプルでありながら効果的な画像キャプションアプリケーションを構築し、キャプションを生成するためにGROQを構築します。

アプリを使用すると、ユーザーは画像をアップロードし、2回のクリックでモデルによって生成された説明的なキャプションを受信できます。このセットアップはユーザーフレンドリーであり、開始するには最小限のコーディング知識が必要です。

当社のアプリケーションには、次の機能が含まれます

タイトル:アプリの目的を確立するために、目立つタイトル、llamaキャプション。

アップロードボタン:ユーザーのデバイスから画像をアップロードするインターフェイス。

ボタンの生成:キャプション生成プロセスを開始するボタン。

キャプション出力:アプリは、生成されたキャプションをインターフェイスに直接表示します。
    Llama 3.2 90bアプリのコード実装
  1. GROQ APIは、ユーザーのアップロードされた画像とLlama 3.2-Visionモデルの間のブリッジとして機能します。あなたが一緒にフォローして私と一緒にコーディングしたい場合は、最初に確認してください:
  2. GROQコンソールでサインアップしてGROQ APIキーを取得します。
  3. APIキーをA
  4. credentiences.json
  5. ファイルに保存して、アクセスを簡素化します。
インストールと構成のためのGroqのQuickStartガイドに従ってください

以下のこのPythonコードスニペットは、GROQ APIと対話するための流線アプリケーションを設定します。含まれています:

    Webアプリ開発のライブラリをインポート(Streamlit)、AI Interactions(GROQ)、画像処理(Base64)、およびファイル操作(OS、JSON)。
  1. 拡張されたセキュリティのために、別のJSONファイルからGROQ APIキーを読み取ります。
  2. 効率的な伝送と処理のために画像をbase64形式にエンコードする関数を定義します。
  3. 以下の関数を書くことで進みます。これは、GROQ APIを使用してアップロードされた画像のテキスト説明を生成するように設計されています。機能の内訳は次のとおりです
    1. 画像エンコーディング:アップロードされた画像は、base64エンコードされた文字列に変換されます。この形式により、画像データをAPIリクエスト内で簡単に送信できます。
    2. GROQ APIインタラクション:GROQクライアントは、GROQサービスとのコミュニケーションを促進するためにインスタンス化されます。チャット完了要求が策定されています
    ユーザープロンプト:「この画像には何が含まれていますか?」
    • base64エンコードされた画像データは、データURIに埋め込まれています。 llama-3.2-90b-vision-previewモデルは、画像を処理してテキストの説明を生成するために指定されています。
    • キャプション抽出:生成されたキャプションは、GROQ API応答から抽出されます。キャプションを含む最初の選択肢のメッセージコンテンツが返されます。
    1. 最後に、retrylit:
    2. を介してインタラクティブなWebアプリを生成します
    import streamlit as st
    from groq import Groq
    import base64
    import os
    import json
    
    # Set up Groq API Key
    os.environ['GROQ_API_KEY'] = json.load(open('credentials.json', 'r'))['groq_token']
    
    # Function to encode the image
    def encode_image(image_path):
       with open(image_path, "rb") as image_file:
           return base64.b64encode(image_file.read()).decode('utf-8')
    ログイン後にコピー
    最終的な流線アプリ:Llama Captioner

    このretrylitアプリケーションは、画像キャプション用のユーザーフレンドリーなインターフェイスを提供します。機能の内訳は次のとおりです
    # Function to generate caption
    def generate_caption(uploaded_image):
       base64_image = base64.b64encode(uploaded_image.read()).decode('utf-8')
       client = Groq()
       chat_completion = client.chat.completions.create(
           messages=[
               {
                   "role": "user",
                   "content": [
                       {"type": "text", "text": "What's in this image?"},
                       {
                           "type": "image_url",
                           "image_url": {
                               "url": f"data:image/jpeg;base64,{base64_image}",
                           },
                       },
                   ],
               }
           ],
           model="llama-3.2-90b-vision-preview",
       )
       return chat_completion.choices[0].message.content
    ログイン後にコピー

    タイトルとファイルアップローダー:

      アプリにはタイトルが表示されます: "llama captioner"。
    1. ファイルアップローダーコンポーネントを使用すると、ユーザーは画像ファイル(JPG、JPEG、またはPNG)を選択できます。
    • 画像ディスプレイ:
    画像がアップロードされたら、アプリはSt.Image関数を使用して表示します。
    1. キャプション生成:
    • ボタン、「キャプションを生成」、キャプション生成プロセスをトリガーします。
      クリックすると、スピナーはキャプションが生成されていることを示します。
    1. generate_caption関数が呼び出され、アップロードされた画像を処理してキャプションを取得します。
    成功すると、成功メッセージが表示され、その後に生成されたキャプションが続きます。
    • 以下のスニペットは、キャプションを生成するためにエディホールの画像がアップロードされた動作中のコードです。驚くべきことに、それは「最強の男」などのようにはっきりと見えなかった情報さえ抽出しました。
    • 結論
    • llama 3.2 90bとRiremlitを使用して画像キャプションアプリを構築することで、AIが困難なタスクを容易にする方法を示しています。このプロジェクトは、強力なモデルとシンプルなインターフェイスを組み合わせて、直感的で使いやすいツールを作成します。
    • AIエンジニアとして、このようなツールに大きな可能性があると思います。彼らはテクノロジーをよりアクセスしやすくし、人々がコンテンツによく関与するのを助け、より賢い方法でプロセスを自動化することができます。
    ラマで学習を続けるには、次のリソースをお勧めします。
    • llama 3.2 1bを実行する方法torchchat
    • llama 3.2およびgradioチュートリアル:マルチモーダルWebアプリを構築
    • llamaスタック:実用的な例を備えたガイド
    • llama 3.2を微調整してローカルに使用します:ステップバイステップガイド
    • llama 3.3:デモプロジェクトを使用したステップバイステップのチュートリアル

以上がllama 3.2 90bチュートリアル:retrylit&groqを備えた画像キャプションアプリの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Meta Llama 3.2を始めましょう - 分析Vidhya Meta Llama 3.2を始めましょう - 分析Vidhya Apr 11, 2025 pm 12:04 PM

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

10生成AIコーディング拡張機能とコードのコードを探る必要があります 10生成AIコーディング拡張機能とコードのコードを探る必要があります Apr 13, 2025 am 01:14 AM

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5など AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5など Apr 11, 2025 pm 12:01 PM

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

従業員へのAI戦略の販売:Shopify CEOのマニフェスト 従業員へのAI戦略の販売:Shopify CEOのマニフェスト Apr 10, 2025 am 11:19 AM

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。 これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

GPT-4o vs Openai O1:新しいOpenaiモデルは誇大広告に値しますか? GPT-4o vs Openai O1:新しいOpenaiモデルは誇大広告に値しますか? Apr 13, 2025 am 10:18 AM

導入 Openaiは、待望の「Strawberry」アーキテクチャに基づいて新しいモデルをリリースしました。 O1として知られるこの革新的なモデルは、推論能力を強化し、問題を通じて考えられるようになりました

ビジョン言語モデル(VLM)の包括的なガイド ビジョン言語モデル(VLM)の包括的なガイド Apr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

ラマ3.2を実行する3つの方法-Analytics Vidhya ラマ3.2を実行する3つの方法-Analytics Vidhya Apr 11, 2025 am 11:56 AM

メタのラマ3.2:マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。 その能力t

最高の迅速なエンジニアリング技術の最新の年次編集 最高の迅速なエンジニアリング技術の最新の年次編集 Apr 10, 2025 am 11:22 AM

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

See all articles