ドクリングを使用してマルチモーダルラグを構築する方法は？-AI-php.cn

ドックリングでマルチモーダルAIのロック解除：検索された生成システムを構築するためのガイド

人工知能（AI）はデータ処理に革命をもたらし、マルチモーダル検索の高等世代（RAG）がこの変換の最前線にあります。 RAGシステムは、テキスト、画像、オーディオ、ビデオの多様なデータ型の取り扱いに優れています。これは、多くの企業で見られる主に非構造化されていないデータをナビゲートするための重要な機能です。この機能は、文脈的理解を高め、正確性を向上させ、ヘルスケア、顧客サービス、教育など、さまざまな分野でAIのアプリケーションを拡大します。

この記事では、生成AIアプリケーションのドキュメント処理を簡素化するように設計されたIBMのオープンソースツールキットであるDoclingを、特にマルチモーダルRAG機能の構築に焦点を当てています。 Doclingは、多様なファイル形式（PDF、Docx、画像など）を構造化された出力（JSON、MarkDown）に変換し、LangchainやLlamaindexなどの一般的なAIフレームワークとシームレスに統合します。これにより、構造化されていないデータの抽出が簡素化され、高度なレイアウト分析がサポートされ、AI駆動型の洞察にアクセスできる複雑なエンタープライズデータがアクセスできます。

主要な学習目標：

ドクリングの理解：ドキュメントが非構造化されたファイルからマルチモーダル情報を抽出する方法を学びます。
Doclingのアーキテクチャ： DoclingのパイプラインとコアAIコンポーネントを調べます。
Doclingの特徴的な機能：他のソリューションとは一線を画すものを発見してください。
マルチモーダルRAGシステムの構築：データ抽出と取得のためにドクリングを使用してシステムを実装します。
エンドツーエンドのワークフロー： PDFからデータを抽出し、画像の説明を生成し、PHI 4を使用してベクターデータベースをクエリするプロセスをマスターします。

構造化されていないデータ処理のためのドクリング：

IBMのオープンソースツールキットであるDoclingは、非構造化されたファイル（PDF、DOCX、画像）を構造化された形式（JSON、MarkDown）に効率的に変換します。 DoclayNet（レイアウト分析用）やTableFormer（テーブル認識用）などの高度なAIモデルを活用して、ドキュメントをドキュメントで抽出し、ドキュメントの構造を保存しながら正確に抽出します。 LangchainおよびLlamainDexとのシームレスな統合は、RAGと質問を回避するアプリケーションをサポートしています。その軽量設計により、標準のハードウェアで効率的なパフォーマンスが保証され、クラウドベースのソリューションに代わる費用対効果の高い代替品を提供し、データプライバシーの優先順位付けを提供します。

ドクリングパイプライン：

ドクリングを使用してマルチモーダルラグを構築する方法は？

ドクリングは線形パイプラインを採用しています。ドキュメントは最初に解析され（PDFバックエンド）、テキストトークンを座標で抽出し、ページビットマップをレンダリングします。 AIモデルは、各ページを個別に処理して、レイアウトとテーブル構造を抽出します。最後に、ポスト処理段階がページの結果を集約し、メタデータを追加し、言語を検出し、読み取り順序をインサールし、構造化されたドキュメントオブジェクト（JSONまたはマークダウン）を組み立てます。

ドクリング内のコアAIモデル：

ドクリングは、伝統的で計算上の高価なOCRを超えて動きます。視覚コンポーネントの識別と分類のために特別にトレーニングされたコンピュータービジョンモデルを利用します。

レイアウト分析モデル： rt-detrに基づいて、DoclayNet（大規模で人間が発音したデータセット）を使用してトレーニングされたこのモデルは、テキストブロック、画像、テーブル、キャプションなどの要素を識別および分類するオブジェクト検出器として機能します。 72 DPIで画像を処理し、効率的なCPU処理を可能にします。
Tableformerモデル：このビジョン変換モデルは、画像からテーブル構造の再構築、境界の欠落、空のセル、一貫性のないフォーマットなどの複雑さの処理に優れています。

Doclingの重要な利点：

汎用性のある形式のサポート： PDFS、DOCX、PPTX、HTML、画像などのプロセス、JSONおよびMarkDownへのエクスポート。
高度なPDF処理：レイアウト分析、読み取り順序検出、テーブル認識、およびスキャンされたドキュメントのOCR（オプション）が含まれます。
統一されたドキュメント表現：処理と分析を容易にするために、一貫した形式を使用します。
AI-Ready Integration： LangchainおよびLlamaindexとシームレスに統合します。
ローカル実行：機密データの安全な処理を有効にします。
効率的なパフォーマンス：従来のOCRよりも大幅に高速。
モジュラーアーキテクチャ：簡単にカスタマイズ可能で拡張可能です。
オープンソースの可用性： MITライセンスで無料で入手できます。

ドクリングを備えたマルチモーダルRAGシステムの構築（Python実装）：

このセクションでは、Docling、PDFからテキスト、画像、テーブルの抽出、画像の説明の生成、ベクトルデータベースのクエリを使用してRAGシステムの構築を詳述しています。完全なコードは、Google Colabノートブック（元の記事に記載されているリンク）で入手できます。手順には、ライブラリのインストール、ドキュメントコンバーターのロード、チャンキングテキスト、テキストの処理、画像のエンコード、画像の説明生成のためのVision言語モデル（Ollamaを介したLlama3.2-vision）を使用して、ベクトルデータベース（Milvusなど）にデータを保存し、LLMを使用してシステムをクエリすることが含まれます。この例では、チャートを備えたサンプルPDF（ "Accenture.pdf"）を使用して、マルチモーダル検索を実証します。

（注：元の記事の詳細なコードスニペットはここに含まれますが、長さの制約のために、それらは省略されています。完全なコードについては、元の記事を参照してください。）

RAGシステムの分析：

この記事では、PDF内のテキスト、表、画像の説明から情報を正確に取得および合成する能力を紹介し、いくつかの質問でシステムをクエリすることを示しています。結果は、PDFのスクリーンショットを使用して視覚的に確認されています。

結論：

Doclingは、構造化されていないデータを生成AIに適した形式に変換するための強力なツールです。高度なAIモデル、シームレスなフレームワーク統合、およびオープンソースの性質の組み合わせにより、堅牢で効率的なマルチモーダルRAGシステムを構築するための貴重な資産となります。現地の実行に対する費用対効果とサポートは、機密情報を処理する企業にとって特に有益です。

（注：長さの制約のために、元の記事の「よくある質問」セクションは、ここでは省略されています。Rag、Doclingの能力、およびエンタープライズの使用に対する適合性をさらに説明します。）

以上がドクリングを使用してマルチモーダルラグを構築する方法は？の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。