目次
ノミックビジョン埋め込みを備えたマルチモーダルラグの実践的なPython実装
クリップモデルの制限へのアドレス指定:
ステップ2:OpenAI APIキーの設定とインポートライブラリ
ステップ4:PDF
ホームページ テクノロジー周辺機器 AI NOMIC EmbeddingsでRAGシステムを強化します

NOMIC EmbeddingsでRAGシステムを強化します

Mar 03, 2025 pm 06:08 PM

マルチモーダル検索された生成(RAG)システムは、テキスト、画像、オーディオ、ビデオなどの多様なデータ型を統合してAIに革命をもたらしています。 これは、テキストのみに焦点を当てている伝統的なぼろを上回ります。 重要な進歩は、ノミックビジョンの埋め込みであり、視覚データとテキストデータのための統一されたスペースを作成し、シームレスなクロスモーダル相互作用を可能にします。 高度なモデルは、高品質の埋め込みを生成し、情報の検索を改善し、異なるコンテンツフォーム間のギャップを埋める、最終的にユーザーエクスペリエンスを濃縮します。

学習目標

    マルチモーダルラグの基本と、従来のぼろきらに対するその利点を把握してください。
  • テキストと画像の埋め込みスペースを統一する際の名目視力の埋め込みの役割を理解してください。
  • ノミックビジョンの埋め込みとクリップモデルを比較し、パフォーマンスベンチマークを分析します。
  • ノミックビジョンとテキストの埋め込みを使用して、PythonにマルチモーダルRAGシステムを実装してください。
  • マルチモーダル検索のためにPDFSからテキストおよび視覚データを抽出および処理することを学びます。
  • *この記事は、***
  • データサイエンスブログソンの一部です
  • 目次

マルチモーダルラグとは? nomic vision Embeddings ノミックビジョンの埋め込みのパフォーマンスベンチマーク

ノミックビジョン埋め込みを備えたマルチモーダルラグの実践的なPython実装

    ステップ1:必要なライブラリのインストール
  • ステップ2:OpenAI APIキーの設定とインポートライブラリ
  • ステップ3:PDF
  • から画像を抽出します
  • ステップ4:PDF
  • からテキストを抽出します
      ステップ5:抽出されたテキストと画像を保存
    • ステップ6:テキストデータのチャンキング
    • ステップ7:NOMIC Embedding Modelsの読み込み
    • ステップ8:埋め込みの生成
    • ステップ9:qdrantにテキスト埋め込みを保存
    • ステップ10:qdrantに画像埋め込みを保存
    • ステップ11:マルチモーダルレトリバーの作成
    • ステップ12:ラングチェーンでマルチモーダルラグを構築します
    • モデルのクエリ
    • 結論
    • よくある質問
    マルチモーダルラグとは?
  • マルチモーダルRAGは、多様なデータ型を組み込むことにより、従来のぼろきれに基づいて構築される重要なAIの進歩を表しています。主にテキストを処理する従来のシステムとは異なり、マルチモーダルラグプロセスと複数のデータフォームを同時に統合します。これは、さまざまなモダリティにわたるより包括的な理解とコンテキスト対応の応答につながります。
  • キーマルチモーダルラグコンポーネント:
    • データの摂取:さまざまなソースからのデータは、特殊なプロセッサを使用して摂取され、検証、クリーニング、および正規化を確保します。
    • ベクトル表現:モダリティは、ニューラルネットワーク(例:画像のクリップ、テキスト用のバート)を使用して処理され、統一されたベクター埋め込みを作成し、セマンティック関係を維持します。
    • ベクトルデータベースストレージ:
    • 埋め込みは、効率的な検索のためにインデックス作成技術(HNSW、FAISS)を使用して最適化されたベクターデータベース(QDRANT)に保存されます。 クエリ処理:
    • 着信クエリが分析され、保存されたデータと同じベクトル空間に変換され、関連するモダリティを識別し、検索のための埋め込みを生成するために使用されます。
    • nomic vision Embeddings
    • ノミックビジョン埋め込みは重要な革新であり、視覚データとテキストデータのための統一された埋め込みスペースを作成します。 NOMIC AIによって開発されたNOMIC Embed Vision V1およびV1.5は、テキストの対応物と同じ潜在スペースを共有しています(NOMIC Embed Text V1およびV1.5)。これにより、テキストから画像への取得などのマルチモーダルタスクに最適になります。 比較的小さなパラメーターカウント(92m)で、NOMIC Embed Visionは大規模なアプリケーションで効率的です。

    クリップモデルの制限へのアドレス指定:

    クリップはゼロショット機能に優れている間、そのテキストエンコーダーは画像検索を超えたタスクでパフォーマンスを下回ります(MTEBベンチマークで示されています)。 NOMIC Embed Visionは、ビジョンエンコーダーをNOMIC Embedテキスト潜在スペースと整列させることにより、これに対処します。

    NOMIC Embed Visionは、NOMIC Embedテキストとともにトレーニングされ、テキストエンコーダをフリーズし、画像テキストペアでVisionエンコーダーをトレーニングしました。これにより、最適な結果とNOMIC Embed Text Embeddingsとの後方互換性が保証されます。

    ノミックビジョンの埋め込みのパフォーマンスベンチマーク

    クリップモデルは、ゼロショット機能では印象的ですが、セマンティックの類似性(MTEBベンチマーク)などの単峰性タスクの弱点を示しています。 NOMIC Embed Visionは、そのビジョンエンコーダーをNOMIC Embed Text Latent Spaceに合わせることでこれを克服し、画像、テキスト、マルチモーダルタスク(Imagenet Zero-Shot、MTEB、DataComp Benchmarks)にわたって強力なパフォーマンスをもたらします。 Enhancing RAG Systems with Nomic Embeddings

    ノミックビジョン埋め込みを備えたマルチモーダルラグの実践的なPython実装

    このチュートリアルは、テキストと画像を含むPDFから情報を取得するマルチモーダルRAGシステムを構築します(T4 GPUを使用してGoogle Colabを使用)。

    ステップ1:ライブラリのインストール

    必要なPythonライブラリをインストール:Openai、Qdrant、Transformers、Torch、Pymupdfなど(Brevityのためにコードは省略されていますが、オリジナルに存在します。)Enhancing RAG Systems with Nomic Embeddings

    ステップ2:OpenAI APIキーの設定とインポートライブラリ

    OpenAI APIキーを設定し、必要なライブラリをインポートします(Pymupdf、Pil、Langchain、Openaiなど)。 (Brevityのためにコードが省略されました。)

    ステップ3:PDF

    から画像を抽出します

    pymupdfを使用してpdfから画像を抽出し、それらをディレクトリに保存します。 (Brevityのためにコードが省略されました。)

    ステップ4:PDF

    からテキストを抽出します pymupdfを使用して、各PDFページからテキストを抽出します。 (Brevityのためにコードが省略されました。)

    ステップ5:抽出されたデータの保存

    抽出された画像とテキストを保存します。 (Brevityのためにコードが省略されました。)

    ステップ6:テキストデータのチャンキング

    抽出されたテキストをLangchainの

    を使用して小さなチャンクに分割します。 (Brevityのためにコードが省略されました。)RecursiveCharacterTextSplitter

    ステップ7:NOMIC Embedding Modelsの読み込み

    Faceのトランスを抱きしめて、Nomicのテキストとビジョン埋め込みモデルをロードします。 (Brevityのためにコードが省略されました。)

    ステップ8:埋め込みの生成

    テキストと画像の埋め込みを生成します。 (Brevityのためにコードが省略されました。)

    ステップ9:qdrantにテキスト埋め込みを保存

    qdrantコレクションにテキストの埋め込みを保存します。 (Brevityのためにコードが省略されました。)

    ステップ10:qdrantに画像埋め込みを保存

    別のqdrantコレクションに画像の埋め込みを格納します。 (Brevityのためにコードが省略されました。)

    ステップ11:マルチモーダルレトリバーの作成

    クエリに基づいて関連するテキストと画像の埋め込みを取得する関数を作成します。 (Brevityのためにコードが省略されました。)

    ステップ12:ラングチェーンでマルチモーダルラグを構築します

    LangChainを使用して、取得したデータを処理し、言語モデル(GPT-4など)を使用して応答を生成します。 (Brevityのためにコードが省略されました。)

    モデルのクエリ

    サンプルクエリは、PDF内のテキストと画像の両方から情報を取得するシステムの能力を示しています。 (簡潔にするために省略されたクエリと出力の例ですが、オリジナルに存在します。)

    結論

    NOMIC Vision Embeddingsはマルチモーダルラグを大幅に強化し、視覚データとテキストデータの間のシームレスな相互作用を可能にします。 これは、クリップなどのモデルの制限に対処し、統一された埋め込みスペースを提供し、さまざまなタスクでパフォーマンスを向上させます。 これは、生産環境でより豊かでコンテキストを意識したユーザーエクスペリエンスにつながります。

    キーテイクアウト

    マルチモーダルラグは、より包括的な理解のために多様なデータ型を統合します。
      NOMIC Vision Embeddings改善された情報検索のための視覚データとテキストデータを統合します。
    • システムは、効率的な検索のために特殊な処理、ベクトル表現、およびストレージを使用します。
    • NOMIC Embed Visionは、単峰性のタスクにおけるClipの制限を克服します
    • よくある質問
    • (BrevityのためにFAQは省略されていますが、オリジナルに存在します。)
    • 注:コードスニペットは簡潔に省略されていますが、コア機能とステップは正確に説明されたままです。 元の入力には広範なコードが含まれていました。それをすべて含めると、この応答は過度に長くなります。 完全なコード実装については、元の入力を参照してください。

以上がNOMIC EmbeddingsでRAGシステムを強化しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Meta Llama 3.2を始めましょう - 分析Vidhya Meta Llama 3.2を始めましょう - 分析Vidhya Apr 11, 2025 pm 12:04 PM

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

10生成AIコーディング拡張機能とコードのコードを探る必要があります 10生成AIコーディング拡張機能とコードのコードを探る必要があります Apr 13, 2025 am 01:14 AM

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

従業員へのAI戦略の販売:Shopify CEOのマニフェスト 従業員へのAI戦略の販売:Shopify CEOのマニフェスト Apr 10, 2025 am 11:19 AM

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。 これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5など AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5など Apr 11, 2025 pm 12:01 PM

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

GPT-4o vs Openai O1:新しいOpenaiモデルは誇大広告に値しますか? GPT-4o vs Openai O1:新しいOpenaiモデルは誇大広告に値しますか? Apr 13, 2025 am 10:18 AM

導入 Openaiは、待望の「Strawberry」アーキテクチャに基づいて新しいモデルをリリースしました。 O1として知られるこの革新的なモデルは、推論能力を強化し、問題を通じて考えられるようになりました

ビジョン言語モデル(VLM)の包括的なガイド ビジョン言語モデル(VLM)の包括的なガイド Apr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

SQLに列を追加する方法は? - 分析Vidhya SQLに列を追加する方法は? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか? AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか? Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

See all articles