NOMIC EmbeddingsでRAGシステムを強化します
マルチモーダル検索された生成(RAG)システムは、テキスト、画像、オーディオ、ビデオなどの多様なデータ型を統合してAIに革命をもたらしています。 これは、テキストのみに焦点を当てている伝統的なぼろを上回ります。 重要な進歩は、ノミックビジョンの埋め込みであり、視覚データとテキストデータのための統一されたスペースを作成し、シームレスなクロスモーダル相互作用を可能にします。 高度なモデルは、高品質の埋め込みを生成し、情報の検索を改善し、異なるコンテンツフォーム間のギャップを埋める、最終的にユーザーエクスペリエンスを濃縮します。
学習目標- マルチモーダルラグの基本と、従来のぼろきらに対するその利点を把握してください。
- テキストと画像の埋め込みスペースを統一する際の名目視力の埋め込みの役割を理解してください。 ノミックビジョンの埋め込みとクリップモデルを比較し、パフォーマンスベンチマークを分析します。
- ノミックビジョンとテキストの埋め込みを使用して、PythonにマルチモーダルRAGシステムを実装してください。 マルチモーダル検索のためにPDFSからテキストおよび視覚データを抽出および処理することを学びます。
- *この記事は、*** データサイエンスブログソンの一部です
- 目次
マルチモーダルラグとは? nomic vision Embeddings ノミックビジョンの埋め込みのパフォーマンスベンチマーク
ノミックビジョン埋め込みを備えたマルチモーダルラグの実践的なPython実装
- ステップ1:必要なライブラリのインストール
- ステップ2:OpenAI APIキーの設定とインポートライブラリ
- ステップ3:PDF
- から画像を抽出します ステップ4:PDF
- からテキストを抽出します
- ステップ5:抽出されたテキストと画像を保存
- ステップ6:テキストデータのチャンキング
- ステップ7:NOMIC Embedding Modelsの読み込み
- ステップ8:埋め込みの生成
- ステップ9:qdrantにテキスト埋め込みを保存
- ステップ10:qdrantに画像埋め込みを保存
- ステップ11:マルチモーダルレトリバーの作成
- ステップ12:ラングチェーンでマルチモーダルラグを構築します
- モデルのクエリ
- 結論
- よくある質問
- マルチモーダルRAGは、多様なデータ型を組み込むことにより、従来のぼろきれに基づいて構築される重要なAIの進歩を表しています。主にテキストを処理する従来のシステムとは異なり、マルチモーダルラグプロセスと複数のデータフォームを同時に統合します。これは、さまざまなモダリティにわたるより包括的な理解とコンテキスト対応の応答につながります。
- キーマルチモーダルラグコンポーネント:
-
- データの摂取:さまざまなソースからのデータは、特殊なプロセッサを使用して摂取され、検証、クリーニング、および正規化を確保します。
- ベクトル表現:モダリティは、ニューラルネットワーク(例:画像のクリップ、テキスト用のバート)を使用して処理され、統一されたベクター埋め込みを作成し、セマンティック関係を維持します。 ベクトルデータベースストレージ:
- 埋め込みは、効率的な検索のためにインデックス作成技術(HNSW、FAISS)を使用して最適化されたベクターデータベース(QDRANT)に保存されます。 クエリ処理: 着信クエリが分析され、保存されたデータと同じベクトル空間に変換され、関連するモダリティを識別し、検索のための埋め込みを生成するために使用されます。
- nomic vision Embeddings ノミックビジョン埋め込みは重要な革新であり、視覚データとテキストデータのための統一された埋め込みスペースを作成します。 NOMIC AIによって開発されたNOMIC Embed Vision V1およびV1.5は、テキストの対応物と同じ潜在スペースを共有しています(NOMIC Embed Text V1およびV1.5)。これにより、テキストから画像への取得などのマルチモーダルタスクに最適になります。 比較的小さなパラメーターカウント(92m)で、NOMIC Embed Visionは大規模なアプリケーションで効率的です。
クリップモデルの制限へのアドレス指定:
ノミックビジョンの埋め込みのパフォーマンスベンチマーク
クリップモデルは、ゼロショット機能では印象的ですが、セマンティックの類似性(MTEBベンチマーク)などの単峰性タスクの弱点を示しています。 NOMIC Embed Visionは、そのビジョンエンコーダーをNOMIC Embed Text Latent Spaceに合わせることでこれを克服し、画像、テキスト、マルチモーダルタスク(Imagenet Zero-Shot、MTEB、DataComp Benchmarks)にわたって強力なパフォーマンスをもたらします。
ステップ1:ライブラリのインストール
必要なPythonライブラリをインストール:Openai、Qdrant、Transformers、Torch、Pymupdfなど(Brevityのためにコードは省略されていますが、オリジナルに存在します。)
ステップ2:OpenAI APIキーの設定とインポートライブラリ
OpenAI APIキーを設定し、必要なライブラリをインポートします(Pymupdf、Pil、Langchain、Openaiなど)。 (Brevityのためにコードが省略されました。)
ステップ3:PDF
から画像を抽出しますpymupdfを使用してpdfから画像を抽出し、それらをディレクトリに保存します。 (Brevityのためにコードが省略されました。)
ステップ4:PDF
からテキストを抽出します pymupdfを使用して、各PDFページからテキストを抽出します。 (Brevityのためにコードが省略されました。)を使用して小さなチャンクに分割します。 (Brevityのためにコードが省略されました。)
ステップ7:NOMIC Embedding Modelsの読み込みRecursiveCharacterTextSplitter
モデルのクエリ
キーテイクアウト
- NOMIC Vision Embeddings改善された情報検索のための視覚データとテキストデータを統合します。
- システムは、効率的な検索のために特殊な処理、ベクトル表現、およびストレージを使用します。 NOMIC Embed Visionは、単峰性のタスクにおけるClipの制限を克服します
- よくある質問
- (BrevityのためにFAQは省略されていますが、オリジナルに存在します。)
注:コードスニペットは簡潔に省略されていますが、コア機能とステップは正確に説明されたままです。 元の入力には広範なコードが含まれていました。それをすべて含めると、この応答は過度に長くなります。 完全なコード実装については、元の入力を参照してください。
以上がNOMIC EmbeddingsでRAGシステムを強化しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。 これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

導入 Openaiは、待望の「Strawberry」アーキテクチャに基づいて新しいモデルをリリースしました。 O1として知られるこの革新的なモデルは、推論能力を強化し、問題を通じて考えられるようになりました

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください
