最近、インストラクター ライブラリに出会ったのですが、かなり感銘を受けたと言わざるを得ません。非構造化データを構造化するという概念は強力であると同時に、あえて言えば、少し魔法的でもあります。あちこちにあるデータを取得して、何らかの方法でそれに秩序を与えることができるという考えは、まさに私の一種の魔術です。
しかし…正確にはどのように機能するのでしょうか?
それを知るために、私はこのライブラリの内部を少し時間をかけて調べたところ、その魔法の多くを担っている舞台裏で 2 人の主要人物がいることを発見しました。
import instructor from pydantic import BaseModel from openai import OpenAI
Python のデータ検証と設定管理に詳しい方は、おそらく Pydantic について聞いたことがあるでしょう。そうでない場合は... シートベルトを締めてください!これは、データ構造を定義し、受信データがそれらの構造と一致することをリアルタイムで検証できる素晴らしいライブラリです。これを、適切なデータのみが確実に入力されるようにする、高級クラブの用心棒のようなものだと考えてください。
もう 1 つの優れたツールである FastAPI は、Pydantic をうまく利用して、API を通過するデータが正しい形式であることを保証します。では、次のステップは何でしょうか?構造を定義したので、LLM (OpenAI の GPT など) をそれに従わせるにはどうすればよいでしょうか?うーん…
私の最初の仮説は、Pydantic ではある種のシリアル化、つまりデータ構造を LLM が簡単に理解して操作できるものに変換できるのではないかということでした。そして、結局のところ、私は間違っていませんでした。
Pydantic では、次のメソッドを使用してデータを辞書にシリアル化できます。
model.model_dump(...) # Dumps the model into a dictionary
このメソッドは、Pydantic モデルを辞書に再帰的に変換し、LLM に入力して処理できます。ここまでは順調ですね。しかし、さらに興味深いものを見つけました:
良くなってきました。 Pydantic はデータを辞書に変換するだけでなく、モデルの JSON スキーマを生成することもできます。これで、LLM が従うべき構造の青写真ができたので、これが重要です。
ここからが実際にうまくいき始めたところです:
# Generate a JSON schema for a Pydantic model response_model.model_json_schema()
ビンゴ!これで、データがどのように表示されるべきかを正確に定義する明確なスキーマが完成しました。これは LLM に送信できるブループリントなので、LLM は出力をどのように構成するかを正確に認識しています。
import instructor from pydantic import BaseModel from openai import OpenAI
ここでは、ライブラリはスキーマを LLM に渡し、その構造に準拠するデータを返すように要求しています。メッセージは明確です。「LLM さん、出力を生成するときはこのスキーマを尊重してください。」これは、LLM に詳細な地図を渡して、「この指示に従ってください」と言っているようなものです。
このようにすべての調査を行った結果、私は今確信しています。Pydantic のシリアル化と JSON スキーマ生成により、Instructor ライブラリが構造化データ形式に従う LLM を取得できるようになります。
この楽しい (そして少し複雑な) 調査にお付き合いいただき、ありがとうございました。 Python ライブラリのちょっとした助けと、ちょっとした創造的なプロンプトで、非構造化データを飼いならすことができるなんて誰が想像したでしょうか?
以上がインストラクター ライブラリの探索: 非構造化データの構造化 (そしてその過程での楽しいこと)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。