ホームページ テクノロジー周辺機器 AI RAGシステム用の8種類のチャンキング-AnalyticsVidhya

RAGシステム用の8種類のチャンキング-AnalyticsVidhya

Mar 06, 2025 pm 12:00 PM

検索された世代(RAG)でチャンキングの力を解き放つ:深いダイビング

大量のテキストデータを効率的に処理することは、堅牢かつ効果的な検索充電(RAG)システムを構築するために重要です。 この記事では、さまざまなチャンキング戦略を検討します。これは、AI搭載アプリケーションのパフォーマンスを最適化し、パフォーマンスを向上させるために不可欠です。 さまざまなアプローチを掘り下げ、それらの長所と短所を強調し、実用的な例を提供します。

目次

    ぼろきれは何ですか?
  • チャンキングの重要性
  • ラグアーキテクチャとチャンク
  • の理解 RAGシステムとの一般的な課題
  • 最適なチャンキング戦略の選択
  • 文字ベースのテキストチャンキング
  • langchainを使用した再帰文字テキストの分割
  • ドキュメント固有のチャンキング(HTML、Python、JSONなど)
  • LangchainとOpenaiでのセマンティックチャンキング
  • エージェントチャンキング(LLM駆動型チャンキング)
  • セクションベースのチャンキング
  • 強化された検索のためのコンテキストチャンキング
  • 長距離コンテキストを維持するための後期チャンキング
  • 結論
  • ぼろきれは何ですか?
  • ​​

チャンクは、大規模なテキストドキュメントをより小さく、より管理しやすいユニットに分割するプロセスです。 言語モデルにはコンテキストウィンドウが制限されているため、これはRAGシステムにとって不可欠です。 チャンクは、関連情報がこれらの制限内に残り、信号対雑音比を最大化し、モデルのパフォーマンスを改善することを保証します。 目標は、データを分割するだけでなく、そのプレゼンテーションをモデルに最適化して、検索性と精度を強化することです。 8 Types of Chunking for RAG Systems - Analytics Vidhya8 Types of Chunking for RAG Systems - Analytics Vidhyaなぜチャンキングが重要なのですか? Chromaの共同設立者であるAnton Troynikovは、コンテキストウィンドウ内の無関係なデータがアプリケーションの有効性を大幅に低下させることを強調しています。 チャンクは次のとおりです 8 Types of Chunking for RAG Systems - Analytics Vidhya

コンテキストウィンドウの制限を克服する:

サイズの制限のために重要な情報が失われないようにします。

信号対雑音比の改善:は、無関係なコンテンツをフィルターし、モデルの精度を向上させます。

検索効率の向上:

関連情報のより速く、より正確な検索を促進します。
  1. タスク固有の最適化:特定のアプリケーションニーズに合わせて戦略を調整することができます(例えば、要約対質問アンウェー)。
  2. ragアーキテクチャとチャンキング
  3. 8 Types of Chunking for RAG Systems - Analytics Vidhya

    RAGアーキテクチャには、3つの重要な段階が含まれます

    1. チャンキング:生データは、より小さく、意味のあるチャンクに分割されます
    2. 埋め込み:
    3. チャンクはベクトル埋め込みに変換されます。
    4. 検索&生成:
    5. 関連するチャンクはユーザークエリに基づいて取得され、LLMは取得された情報を使用して応答を生成します。 RAGシステムの課題

    RAGシステムはいくつかの課題に直面しています:

    検索の問題:
      関連情報の取得または不完全な取得。
    1. 生成の難しさ:
    2. 幻覚、無関係またはバイアス出力。
    3. 統合の問題:
    4. 取得した情報を一貫して組み合わせるのが難しい。
    5. 適切なチャンキング戦略の選択

    理想的なチャンキング戦略は、コンテンツタイプ、埋め込みモデル、および予想されるユーザークエリのいくつかの要因に依存します。 コンテンツの構造と密度、埋め込みモデルのトークンの制限、およびユーザーが尋ねる可能性のある質問の種類を考慮してください。

    1。キャラクターベースのテキストチャンキング

    この単純な方法は、意味の意味に関係なく、文字カウントに基づいてテキストを固定サイズのチャンクに分割します。 簡単ですが、多くの場合、文の構造とコンテキストを混乱させます。 Pythonを使用した例:

    2。 langchain

    text = "Clouds come floating into my life..."
    chunks = []
    chunk_size = 35
    chunk_overlap = 5
    # ... (Chunking logic as in the original example)
    ログイン後にコピー
    ログイン後にコピー
    を使用した再帰文字テキストの分割 このアプローチは、複数のセパレーター(たとえば、ダブルニューライン、シングルニューライン、スペースなど)を使用してテキストを再帰的に分割し、ターゲット文字サイズに最適化するために小さなチャンクをマージします。 キャラクターベースのチャンクよりも洗練されており、より良いコンテキストの保存を提供します。 Langchainを使用した例:

    3。ドキュメント固有のチャンキング

    # ... (LangChain installation and code as in the original example)
    ログイン後にコピー
    ログイン後にコピー
    この方法は、形式固有のセパレータを使用して、さまざまなドキュメント形式(HTML、Python、Markdownなど)にチャンクを適応させます。 これにより、チャンクがドキュメントの固有の構造を尊重することが保証されます。 PythonとMarkdownにLangchainを使用した例は、元の応答で提供されています。

    4。 LangchainとOpenaiでのセマンティックチャンキング

    セマンティックチャンキングは、セマンティックの意味に基づいてテキストを分割し、文の埋め込みなどのテクニックを使用して自然なブレークポイントを識別します。 このアプローチは、各チャンクが一貫したアイデアを表すことを保証します。ラングチェーンとオープン埋め込みを使用した例:

    5。エージェントチャンキング(LLM駆動型チャンキング)

    エージェントチャンキングはLLMを使用してテキスト内の自然なブレークポイントを識別し、より文脈的に関連するチャンクをもたらします。 このアプローチは、LLMの言語とコンテキストの理解を活用して、より意味のあるセグメントを作成します。 OpenAI APIを使用した例:

    text = "Clouds come floating into my life..."
    chunks = []
    chunk_size = 35
    chunk_overlap = 5
    # ... (Chunking logic as in the original example)
    ログイン後にコピー
    ログイン後にコピー

    6。セクションベースのチャンキング

    この方法では、ドキュメントの固有の構造(見出し、サブヘディング、セクション)を活用して、チャンクを定義します。これは、研究論文やレポートなどの適切に構造化されたドキュメントに特に効果的です。 トピックベースのチャンキングにPymupdfと潜在ディリクレの割り当て(LDA)を使用した例:

    # ... (LangChain installation and code as in the original example)
    ログイン後にコピー
    ログイン後にコピー

    7。コンテキストチャンキング

    コンテキストチャンキングは、各チャンク内のセマンティックコンテキストの保存に焦点を当てています。 これにより、取得された情報が一貫性があり、関連することが保証されます。 LangChainとカスタムプロンプトを使用した例:

    # ... (OpenAI API key setup and code as in the original example)
    ログイン後にコピー
    ログイン後にコピー

    8。遅いチャンキング

    ドキュメント全体に埋め込みを生成するまで、後期チャンキングはチャンキングを遅らせます。これにより、長距離のコンテキスト依存関係が保持され、埋め込みと検索の精度が向上します。 Jina Embeddingsモデルを使用した例:

    # ... (OpenAI API key setup and code as in the original example)
    ログイン後にコピー
    ログイン後にコピー

    結論

    効果的なチャンキングは、高性能のRAGシステムを構築するために最も重要です。チャンキング戦略の選択は、情報検索の品質と生成された応答の一貫性に大きな影響を与えます。 データの特性とアプリケーションの特定の要件を慎重に検討することにより、開発者はRAGシステムのパフォーマンスを最適化するために最も適切なチャンキング方法を選択できます。 各チャンク内のコンテキストの完全性と関連性の維持を常に優先することを忘れないでください。

以上がRAGシステム用の8種類のチャンキング-AnalyticsVidhyaの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Meta Llama 3.2を始めましょう - 分析Vidhya Meta Llama 3.2を始めましょう - 分析Vidhya Apr 11, 2025 pm 12:04 PM

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

10生成AIコーディング拡張機能とコードのコードを探る必要があります 10生成AIコーディング拡張機能とコードのコードを探る必要があります Apr 13, 2025 am 01:14 AM

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5など AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5など Apr 11, 2025 pm 12:01 PM

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

従業員へのAI戦略の販売:Shopify CEOのマニフェスト 従業員へのAI戦略の販売:Shopify CEOのマニフェスト Apr 10, 2025 am 11:19 AM

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。 これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

ビジョン言語モデル(VLM)の包括的なガイド ビジョン言語モデル(VLM)の包括的なガイド Apr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

GPT-4o vs Openai O1:新しいOpenaiモデルは誇大広告に値しますか? GPT-4o vs Openai O1:新しいOpenaiモデルは誇大広告に値しますか? Apr 13, 2025 am 10:18 AM

導入 Openaiは、待望の「Strawberry」アーキテクチャに基づいて新しいモデルをリリースしました。 O1として知られるこの革新的なモデルは、推論能力を強化し、問題を通じて考えられるようになりました

最高の迅速なエンジニアリング技術の最新の年次編集 最高の迅速なエンジニアリング技術の最新の年次編集 Apr 10, 2025 am 11:22 AM

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

SQLに列を追加する方法は? - 分析Vidhya SQLに列を追加する方法は? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

See all articles