この記事では、ショップのレシートから構造化データを抽出するために、Pydantic モデルのスキーマを組み込んだ LlamaExtract を使用する方法を説明します。このアプローチは、領収書情報を体系的に整理するのに役立ち、分析と管理が容易になります。
まず、llama-extract クライアント ライブラリがインストールされていることを確認します。次のコマンドを使用します:
注: pip の更新に関する通知が表示された場合は、提供されているコマンドを使用して更新できます。
まず、ログインして、Llama Index Cloud から API キーを無料で取得します
LlamaExtract API キーの環境変数を設定します:
この例では、PDF 形式の店舗レシートのデータセットがあると仮定しましょう。これらのファイルを、receipations という名前のディレクトリに配置します。
出力には、領収書のファイルパスがリストされるはずです:
Pydantic を使用してデータ モデルを定義します。これにより、PDF からどのフィールド/データを期待している、または抽出したいかを API に指示します。店のレシートの場合は、店名、日付、合計金額、購入した商品のリストを抽出することに興味があるかもしれません。
これで、Pydantic モデルを使用して、LlamaExtract で抽出スキーマを定義できるようになりました。
出力スキーマは次のようになります:
スキーマが定義されたので、レシートファイルから構造化データを抽出できるようになりました。応答モデルとして Receipt を指定することで、抽出されたデータが検証され、構造化されていることを確認します。
必要に応じて、生の JSON 出力にアクセスできます:
JSON 出力の例:
この記事では、Pydantic モデルで LlamaExtract を使用してデータ スキーマを定義し、ショップのレシートから構造化データを抽出する方法を説明しました。このアプローチにより、抽出された情報が適切に整理および検証され、取り扱いと分析が容易になります。
これは、請求書、領収書、レポートなどの多くのケースにも使用できます
コーディングを楽しんでください!!
プロジェクトはありますか?私にメールを送ってほしいということですか??: wilbertmisingo@gmail.com
質問がある場合、または私の投稿について誰よりも早く知りたい場合:-
LinkedIn で✅私をフォローしてください?
Twitter/X で✅私をフォローしてください?
以上がAI を使用して構造的な出力のための最速かつ正確な請求書データ抽出ツールを作成するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。