ホームページ > テクノロジー周辺機器 > AI > Tiktokenチュートリアル:テキストをトークン化するためのOpenai'のPythonライブラリ

Tiktokenチュートリアル:テキストをトークン化するためのOpenai'のPythonライブラリ

Jennifer Aniston
リリース: 2025-03-05 10:30:11
オリジナル
866 人が閲覧しました

Tiktoken Tutorial: OpenAI's Python Library for Tokenizing Text

粒子分詞は、自然言語処理(NLP)タスクを扱うための基本的なステップです。これには、単語、サブワード、または文字などと呼ばれるマーカーと呼ばれる小さなユニットにテキストを壊すことが含まれます。

効率的な単語セグメンテーションは、言語モデルのパフォーマンスにとって重要であり、テキスト生成、翻訳、抽象化などのさまざまなNLPタスクの重要なステップとなっています。

Tiktokenは、Openaiによって開発された高速で効率的なシソーラスです。テキストをタグに変換するための強力なソリューションとその逆を提供します。その速度と効率性により、大規模なデータセットと複雑なモデルを扱う開発者とデータサイエンティストに最適です。

このガイドは、開発者、データサイエンティスト、およびTiktokenの使用を計画している人を対象としており、例を含む実用的なガイドを必要とする人向けに設計されています。

Openaiの基本

Openai APIなどを始めましょう!

今すぐ開始

get tiktokenを始めましょう Tiktokenを開始するには、Python環境にインストールする必要があります(Tiktokenは他のプログラミング言語にも適しています)。これは、次のコマンドを使用して実行できます 次のGithubリポジトリで、Tiktoken Open Source Pythonバージョンのコードを表示できます。

ライブラリをインポートするには、実行されます

コーディングモデル
<code>pip install tiktoken</code>
ログイン後にコピー
ログイン後にコピー

Tiktokenのエンコーディングモデルは、テキストをタグに分割するルールを決定します。これらのモデルは、テキストのセグメント化とエンコードの方法を定義し、言語処理タスクの効率と精度に影響するため、重要です。異なるOpenAIモデルは、異なるエンコーディングを使用しています。

Tiktokenは、異なるユースケースに最適化された3つのコーディングモデルを提供します:

  • O200K_Base:最新のGPT-4O-MINIモデルのエンコード。
  • CL100K_BASE:GPT-4やGPT-3.5-ターボなどの新しいOpenAIモデルのコーディングモデル。
  • p50k_base:コードアプリケーションで使用されるコーデックスモデル。
  • R50K_Base:GPT-3の異なるバージョンの古いエンコード。

これらのモデルはすべて、OpenAIのAPIで使用できます。 APIは、ここにリストされているモデルよりもはるかに多くのモデルを提供することに注意してください。幸いなことに、Tiktokenライブラリは、どのエンコードをどのモデルで使用するかを簡単に確認する方法を提供します。

たとえば、

テキスト埋め込みモデルが使用するエンコーディングモデルを知る必要がある場合、次のコマンドを実行して出力として答えを取得できます。

<code>pip install tiktoken</code>
ログイン後にコピー
ログイン後にコピー
出力として

を取得します。 Tiktokenを直接使用する前に、Openaiにはさまざまな文字列がどのようにトークン化されているかを確認できるトークン化Webアプリケーションがあることに言及したいと思います。ここでアクセスできます。また、非オペナイモデルをサポートするサードパーティのオンラインタガー、Tiktokenizerもあります。

テキストをマーカー

としてエンコードします

tiktokenを使用してタグとしてテキストをエンコードするには、最初にエンコードされたオブジェクトを取得する必要があります。初期化するには2つの方法があります。まず、トークネイザーの名前を使用してこれを行うことができます:

<code>import tiktoken</code>
ログイン後にコピー

あるいは、特定のモデルのエンコーダーを取得するために、前述のencoding_for_model関数を実行することができます:

<code>print(tiktoken.encoding_for_model('text-embedding-3-small'))</code>
ログイン後にコピー
ここで、エンコードオブジェクトのエンコードメソッドを実行して、文字列をエンコードできます。たとえば、「I Love Datacamp」文字列を次のようにエンコードできます。ここでは、CL100K_BASEエンコーダーを使用します:

<code>encoding = tiktoken.get_encoding("[标记器名称]")</code>
ログイン後にコピー
[40、3021、2956、34955]を出力として取得します。

マークをテキストにデコードします

マークをテキストにデコードするには、エンコードされたオブジェクトで.decode()メソッドを使用できます。

次のタグ[40、4048、264、2763、505、2956、34955]をデコードしましょう。

これらのマークは、「Datacampから多くのことを学んだ」と解読されます。
<code>encoding = tiktoken.encoding_for_model("[模型名称]")</code>
ログイン後にコピー

実用的なユースケースとヒント

エンコードとデコードに加えて、他の2つのユースケースも考えました。

コストの見積もりと管理

Openai APIにリクエストを送信する前にタグカウントを理解することで、コストを効率的に管理するのに役立ちます。 Openaiの請求は、処理されたタグの数に基づいているため、事前にタグ付きテキストを使用すると、API使用量のコストを見積もることができます。 Tiktokenを使用してテキストのタグを計算する方法は次のとおりです。

アレイの長さをチェックして、マークの数を確認する必要があります。事前にタグの数を知ることにより、テキストを短縮するか、予算内にとどまるために使用法を調整するかを決定できます。

<code>print(encoding.encode("我爱 DataCamp"))</code>
ログイン後にコピー
この方法の詳細については、PythonのTiktokenライブラリを使用してGPTのコストを推定するこのチュートリアルで読むことができます。

入力長検証

APIからOpenAIモデルを使用する場合、マーカーの入力と出力の最大数によって制限されます。これらの制限を超えると、エラーや出力が切り捨てられる可能性があります。 Tiktokenを使用すると、入力の長さを確認し、マーキングの制限に準拠していることを確認できます。

結論

Tiktokenは、Openai言語モデルに合わせて調整された速度と効率を提供するオープンソースのシソーラスです。

Tiktokenを使用してテキストとそのさまざまなコーディングモデルをエンコードおよびデコードする方法を学ぶことで、大規模な言語モデルで作業を大幅に強化できます。

トップAI認定を取得

AIを効果的かつ責任を持って使用できることを証明します。認定され、雇われます

以上がTiktokenチュートリアル:テキストをトークン化するためのOpenai&#x27;のPythonライブラリの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート