PythonのLangchainの完全なガイド
Langchain:言語モデルとエージェントを構築、実験、分析するための強力なPythonライブラリ
コアポイント:
- Langchainは、言語モデルとエージェントの作成、実験、分析を簡素化するPythonライブラリであり、自然言語処理のための幅広い機能を提供します。
- テキストを理解して生成できる多機能エージェントの作成を可能にし、さまざまな言語関連のタスクを実行するために特定の動作とデータソースを構成できます。
- Langchainは、大規模な言語モデル(LLM)、チャットモデル、テキスト埋め込みモデルの3つのタイプのモデルを提供します。それぞれが言語処理タスクに一意の機能を提供します。 また、大きなテキストを管理しやすいブロックにセグメント化し、複数のLLM関数をチェーンでリンクして複雑なタスクを実行し、OpenaI以外のさまざまなLLMおよびAIサービスと統合するなどの機能も提供します。
環境設定: この記事を学習するには、新しいフォルダーを作成し、PIPを使用してLangchainとOpenaiをインストールしてください:
pip3 install langchain openai
Langchainでは、エージェントはテキストを理解して生成できるエンティティです。これらのエージェントは、特定の動作とデータソースを構成でき、さまざまな言語関連のタスクを実行するようにトレーニングされているため、さまざまなアプリケーション向けの多機能ツールになります。
langchainエージェントを作成:
代理店は、「ツール」を使用して必要なデータを収集し、適切な応答を作成するように構成できます。以下の例をご覧ください。 SERP API(インターネット検索API)を使用して、質問や入力に関連する情報を検索し、回答します。また、LLM-Mathツールを使用して数学操作を実行します。たとえば、単位を変換したり、2つの値間でパーセンテージの変更を見つけたりします。 ご覧のとおり、LLMのすべての基本的なインポートと初期化を完了した後、LLM = OpenAI(offer = "GPT-3.5-TURBO"、温度= 0))、コードはツール= load_tools(["serpapi" 、 "llm-math"]、llm = llm)エージェントが動作するために必要なツールをロードします。次に、intialize_agent関数を使用してエージェントを作成し、指定されたツールを提供し、zero_shot_react_descriptionの説明を提供します。つまり、以前の問題を覚えていません。
エージェンシーテスト例1:from langchain.agents import load_tools from langchain.agents import initialize_agent from langchain.agents import AgentType from langchain.llms import OpenAI import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" os.environ["SERPAPI_API_KEY"] = "YOUR_SERP_API_KEY" # 获取你的Serp API密钥:https://serpapi.com/ OpenAI.api_key = "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" llm = OpenAI(model="gpt-3.5-turbo", temperature=0) tools = load_tools(["serpapi", "llm-math"], llm=llm) agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True) agent.run("How much energy did wind turbines produce worldwide in 2022?")
次の入力でこのエージェントをテストしましょう
ご覧のとおり、次のロジックを使用します。
- SERPインターネット検索APIを使用して、「風力タービンエネルギー生産Worldwide 2022」を検索 分析の最良の結果
- 関連する数字を取得します
- LLM-Mathツールを使用して906 GWをジュールに変換します。 エージェンシーテスト例2:
Langchainエージェントは、インターネットの検索に限定されません。ほぼすべてのデータソース(独自の)をLangchainエージェントに接続し、データについて質問することができます。 CSVデータセットでトレーニングされたエージェントを作成してみましょう。
KaggleでShivam BansalからこのNetflix映画とテレビ番組データセットをダウンロードして、ディレクトリに移動します。このコードを新しいPythonファイルに追加します:このコードは、create_csv_agent関数を呼び出し、netflix_titles.csvデータセットを使用します。次の図は、テストを示しています。
pip3 install langchain openai
上記のように、その論理は、キャスト列の「クリスチャンベール」のすべての出来事を探すことです。
このようなPandasデータフレームエージェントを作成することもできます:
実行すると、以下に示すように結果が表示されます。
from langchain.agents import load_tools from langchain.agents import initialize_agent from langchain.agents import AgentType from langchain.llms import OpenAI import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" os.environ["SERPAPI_API_KEY"] = "YOUR_SERP_API_KEY" # 获取你的Serp API密钥:https://serpapi.com/ OpenAI.api_key = "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" llm = OpenAI(model="gpt-3.5-turbo", temperature=0) tools = load_tools(["serpapi", "llm-math"], llm=llm) agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True) agent.run("How much energy did wind turbines produce worldwide in 2022?")
これらはほんの一例です。 Langchainを使用して、ほぼすべてのAPIまたはデータセットを使用できます。
モデル:
Langchainには、大規模な言語モデル(LLM)、チャットモデル、テキスト埋め込みモデルの3種類のモデルがあります。いくつかの例を使用して、各タイプのモデルを探索しましょう。
大規模な言語モデル:
Langchainは、Pythonで大規模な言語モデルを使用して、テキスト入力に基づいてテキスト出力を生成する方法を提供します。チャットモデルほど複雑ではなく、単純な入出力言語タスクに最適です。 Openaiを使用した例は次のとおりです
上記のように、GPT-3.5-ターボモデルを使用して、提供された入力の出力を生成します(「Matt NikonorovのRAP名を思いつく」)。この例では、LLMをより創造的にするために、温度を0.9に設定します。 「Mc Megamatt」を思いついた。 9/10マークを付けました。
チャットモデル:<code>"How much energy did wind turbines produce worldwide in 2022?"</code>
チャットモデルは、大規模な言語モデルのバリアントです。チャットモデルはバックグラウンドで大きな言語モデルを使用していますが、わずかに異なるインターフェイスを使用します。 「テキスト入力、テキスト出力」APIを使用するのではなく、「チャットメッセージ」を入力と出力のインターフェイスとして使用します。
これは、単純なPythonチャットモデルスクリプトです:
pip3 install langchain openai
このチャットボットモデルを実行すると、以下に示す結果が表示されます。
埋め込み:
埋め込みは、テキストのブロック内の単語と数字をベクトルに変換する方法を提供し、他の単語や数字に関連付けられます。これは抽象的に聞こえるかもしれないので、例を見てみましょう:
from langchain.agents import load_tools from langchain.agents import initialize_agent from langchain.agents import AgentType from langchain.llms import OpenAI import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" os.environ["SERPAPI_API_KEY"] = "YOUR_SERP_API_KEY" # 获取你的Serp API密钥:https://serpapi.com/ OpenAI.api_key = "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" llm = OpenAI(model="gpt-3.5-turbo", temperature=0) tools = load_tools(["serpapi", "llm-math"], llm=llm) agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True) agent.run("How much energy did wind turbines produce worldwide in 2022?")
埋め込まれたモデルの使用ケース:
データまたは特定のテキストサンプルに関連する質問に答えるためにチャットボットまたはLLMをトレーニングしたい場合は、埋め込みを使用する必要があります。 3つの情報を含む「テキスト」列を備えたシンプルなCSVファイル(embs.csv)を作成しましょう。これは、埋め込みを使用して「これまでで最も背の高い人間だった」という質問を得るスクリプトです。
<code>"How much energy did wind turbines produce worldwide in 2022?"</code>
from langchain.llms import OpenAI from langchain.chat_models import ChatOpenAI from langchain.agents.agent_types import AgentType from langchain.agents import create_csv_agent import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" agent = create_csv_agent( OpenAI(temperature=0), "netflix_titles.csv", verbose=True, agent_type=AgentType.ZERO_SHOT_REACT_DESCRIPTION, ) agent.run("In how many movies was Christian Bale casted")
langchainモデルは、同時に大きなテキストを処理することができず、それらを使用して応答を生成することはできません。これは、ブロックとテキストセグメンテーションが入るところです。テキストデータをブロックに分割する2つの簡単な方法を見てから、Langchainに供給します。
文字によるセグメントブロック:
ブロックの突然の中断を避けるために、新しいラインまたはダブルニューラインの各発生時にテキストを分割することにより、テキストを段落ごとに分割できます。
再帰セグメンテーションブロック:from langchain.agents import create_pandas_dataframe_agent from langchain.chat_models import ChatOpenAI from langchain.agents.agent_types import AgentType from langchain.llms import OpenAI import pandas as pd import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_KEY" df = pd.read_csv("netflix_titles.csv") agent = create_pandas_dataframe_agent(OpenAI(temperature=0), df, verbose=True) agent.run("In what year were the most comedy movies released?")
ブロックサイズとオーバーラップ:
上記の例を見ると、ブロックサイズと重複パラメーターが何を意味するのか、パフォーマンスにどのように影響するかを正確に知ることができます。これは、2つの方法で説明できます
- ブロックサイズは、各ブロックの文字の数を決定します。ブロックサイズが大きいほど、ブロック内のデータが多いほど、Langchainを処理して出力を生成するのに時間がかかります。
- ブロックオーバーラップは、ブロック間で情報を共有して、コンテキストを共有するコンテンツです。ブロックのオーバーラップが高いほど、ブロックが冗長になります。ブロックのオーバーラップが低くなるほど、ブロック間で共有されるコンテキストが少なくなります。通常、目的のブロックオーバーラップは、テキストタイプとユースケースによって異なるが、ブロックサイズの10%から20%です。
チェーン:
章は、基本的に複数のLLM関数がリンクされており、単純なLLM入力&GTを介して実現できないより複雑なタスクを実行します。クールな例を見てみましょう:
pip3 install langchain openai
このコードは、プロンプトに2つの変数を入力し、創造的な答えを開発します(温度= 0.9)。この例では、数学についてのホラー映画の良いタイトルを思い付くように頼みます。このコードを実行した後の出力は「計算呪い」ですが、これは実際にはチェーンの完全な機能を示していません。
より実用的な例を見てみましょう:
from langchain.agents import load_tools from langchain.agents import initialize_agent from langchain.agents import AgentType from langchain.llms import OpenAI import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" os.environ["SERPAPI_API_KEY"] = "YOUR_SERP_API_KEY" # 获取你的Serp API密钥:https://serpapi.com/ OpenAI.api_key = "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" llm = OpenAI(model="gpt-3.5-turbo", temperature=0) tools = load_tools(["serpapi", "llm-math"], llm=llm) agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True) agent.run("How much energy did wind turbines produce worldwide in 2022?")
このコードは混乱しているように見えるかもしれないので、段階的に説明しましょう。
このコードは、NAS(ヒップホップアーティスト)の短い伝記を読み取り、テキストから次の値を抽出し、JSONオブジェクトとしてフォーマットします。
- アーティストの名前
- アーティストの音楽ジャンル
- アーティストのファーストアルバム
- アーティストのファーストアルバムのリリース年
create_structed_output_chain関数にJSONパターンを提供することにより、チェーンをJSON形式に出力します。
<code>"How much energy did wind turbines produce worldwide in 2022?"</code>
私はLangchainのさまざまな機能の例としてOpenaiモデルを使用していますが、Openaiモデルに限定されません。他の多くのLLMおよびAIサービスでLangchainを使用できます。 (これはLangchainの統合LLMの完全なリストです。)
たとえば、ラングチェーンと一緒にcoを使用できます。これはLangchain Cohere Integrationのドキュメントですが、実用的な例を提供するために、PIP3インストールCohereを使用してCohereをインストールした後、LangchainとCohereを使用してシンプルなQ&Aコードを書くことができます。
上記のコードでは、次の出力が生成されます
from langchain.llms import OpenAI from langchain.chat_models import ChatOpenAI from langchain.agents.agent_types import AgentType from langchain.agents import create_csv_agent import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" agent = create_csv_agent( OpenAI(temperature=0), "netflix_titles.csv", verbose=True, agent_type=AgentType.ZERO_SHOT_REACT_DESCRIPTION, ) agent.run("In how many movies was Christian Bale casted")
結論:
from langchain.agents import create_pandas_dataframe_agent from langchain.chat_models import ChatOpenAI from langchain.agents.agent_types import AgentType from langchain.llms import OpenAI import pandas as pd import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_KEY" df = pd.read_csv("netflix_titles.csv") agent = create_pandas_dataframe_agent(OpenAI(temperature=0), df, verbose=True) agent.run("In what year were the most comedy movies released?")
この記事には、すべての画像とnas.txtファイルを含むGitHubにリポジトリを見つけることができます。
PythonでLangchainを使用して、幸せなコーディングと実験をお祈りします!
以上がPythonのLangchainの完全なガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











LinuxターミナルでPythonバージョンを表示する際の許可の問題の解決策PythonターミナルでPythonバージョンを表示しようとするとき、Pythonを入力してください...

fiddlereveryversings for the-middleの測定値を使用するときに検出されないようにする方法

PythonのPandasライブラリを使用する場合、異なる構造を持つ2つのデータフレーム間で列全体をコピーする方法は一般的な問題です。 2つのデータがあるとします...

UvicornはどのようにしてHTTPリクエストを継続的に聞きますか? Uvicornは、ASGIに基づく軽量のWebサーバーです。そのコア機能の1つは、HTTPリクエストを聞いて続行することです...

10時間以内にコンピューター初心者プログラミングの基本を教える方法は?コンピューター初心者にプログラミングの知識を教えるのに10時間しかない場合、何を教えることを選びますか...

Investing.comの反クラウリング戦略を理解する多くの人々は、Investing.com(https://cn.investing.com/news/latest-news)からのニュースデータをクロールしようとします。
