Tutoriel Tiktoken: Bibliothèque Python Openai & # x27;-IA-php.cn

Table des matières

Bases d'Openai

coder le texte en tant que marqueur

décoder la marque dans le texte

cas d'utilisation pratiques et conseils

Estimation et gestion des coûts

Vérification de la longueur d'entrée

Conclusion

Obtenez la certification AI Top

Maison

Périphériques technologiques

Tutoriel Tiktoken: Bibliothèque Python Openai & # x27;

Jennifer Aniston

Mar 05, 2025 am 10:30 AM

Tiktoken Tutorial: OpenAI's Python Library for Tokenizing Text

Le participe de particules est une étape de base dans le traitement des tâches de traitement du langage naturel (NLP). Cela implique de diviser le texte en unités plus petites, appelées marqueurs, qui peuvent être des mots, des sous-mots ou des caractères.

La segmentation efficace des mots est essentielle aux performances des modèles de langage, ce qui en fait une étape importante dans une variété de tâches PNL telles que la génération de texte, la traduction et l'abstraction.

tiktoken est un thésaurus rapide et efficace développé par Openai. Il fournit une solution puissante pour convertir le texte en balises et vice versa. Sa vitesse et son efficacité en font un excellent choix pour les développeurs et les scientifiques des données qui travaillent avec de grands ensembles de données et des modèles complexes.

Ce guide est conçu pour les développeurs, les scientifiques des données et toute personne qui prévoit d'utiliser TikToken et a besoin d'un guide pratique qui contient des exemples.

Bases d'Openai

Commencez avec API Openai et plus encore!

Démarrez maintenant Vous pouvez afficher le code de la version Python Open Source TikToken dans le référentiel GitHub suivant.

Pour importer la bibliothèque, nous exécutons:

<code>pip install tiktoken</code>

Copier après la connexion

Modèle de codage

Le modèle de codage dans TikToken détermine les règles de divulguer du texte en balises. Ces modèles sont cruciaux car ils définissent comment le texte est segmenté et codé, ce qui affecte l'efficacité et la précision des tâches de traitement du langage. Différents modèles OpenAI utilisent différents encodages.

<code>import tiktoken</code>

Copier après la connexion

TikToken fournit trois modèles de codage optimisés pour différents cas d'utilisation:

O200K_BASE: Encodage du dernier modèle GPT-4O-MINI.

CL100K_BASE: Modèles de codage pour les nouveaux modèles OpenAI tels que GPT-4 et GPT-3.5-Turbo.

p50k_base: modèles de codex utilisés dans les applications de code.

R50K_BASE: Encodage plus ancien pour différentes versions de GPT-3.

Tous ces modèles sont disponibles pour l'API d'Openai. Notez que l'API fournit beaucoup plus de modèles que ceux énumérés ici. Heureusement, la bibliothèque Tiktoken offre un moyen facile de vérifier quel codage doit être utilisé avec quel modèle.

Par exemple, si j'ai besoin de savoir quel modèle de codage le modèle de texte-3 utilise, je peux exécuter la commande suivante et obtenir la réponse en sortie:

<code>pip install tiktoken</code>

Copier après la connexion

Nous obtenons en tant que sortie. Avant d'utiliser directement TikToken, je voudrais mentionner qu'Openai a une application Web à jetons où vous pouvez voir comment différentes chaînes sont tokenisées - vous pouvez y accéder ici. Il existe également un tagger en ligne tiers, TikTokenizer, qui prend en charge les modèles non openai.

coder le texte en tant que marqueur

Pour coder le texte comme une balise en utilisant TikToken, vous devez d'abord obtenir l'objet codé. Il existe deux façons de l'initialiser. Tout d'abord, vous pouvez le faire en utilisant le nom du tokenzer:

<code>import tiktoken</code>

Copier après la connexion

Alternativement, vous pouvez exécuter la fonction coding_for_model mentionnée plus tôt pour obtenir le codeur d'un modèle spécifique:

<code>print(tiktoken.encoding_for_model('text-embedding-3-small'))</code>

Copier après la connexion

Maintenant, nous pouvons exécuter la méthode d'encoder de l'objet Encode pour coder la chaîne. Par exemple, nous pouvons coder la chaîne "j'aime datacamp" comme suit - Ici, j'utilise le codeur CL100K_BASE:

<code>encoding = tiktoken.get_encoding("[标记器名称]")</code>

Copier après la connexion

Nous obtenons [40, 3021, 2956, 34955] comme sortie.

décoder la marque dans le texte

Pour décoder la marque vers le texte, nous pouvons utiliser la méthode .decode () sur l'objet codé.

Décodons la balise suivante [40, 4048, 264, 2763, 505, 2956, 34955]:

<code>encoding = tiktoken.encoding_for_model("[模型名称]")</code>

Copier après la connexion

Ces marques sont décodées comme "J'ai beaucoup appris de Datacamp".

cas d'utilisation pratiques et conseils

En plus du codage et du décodage, j'ai également pensé à deux autres cas d'utilisation.

Estimation et gestion des coûts

Comprendre le comptage des balises avant d'envoyer une demande à l'API OpenAI peut vous aider à gérer efficacement les coûts. Parce que la facturation d'Openai est basée sur le nombre d'étiquettes traitées, le texte pré-marqué vous permet d'estimer le coût de l'utilisation de l'API. Voici comment calculer les balises dans le texte en utilisant tiktoken:

<code>print(encoding.encode("我爱 DataCamp"))</code>

Copier après la connexion

Nous avons juste besoin de vérifier la longueur du tableau pour voir combien de notes nous obtenons. En connaissant le nombre d'étiquettes à l'avance, vous pouvez décider de raccourcir le texte ou d'ajuster l'utilisation pour rester dans votre budget.

Vous pouvez en savoir plus sur cette méthode dans ce tutoriel sur l'estimation du coût de GPT en utilisant la bibliothèque Tiktoken à Python.

Vérification de la longueur d'entrée

Lorsque vous utilisez des modèles OpenAI de l'API, vous êtes limité par le nombre maximum de marqueurs d'entrée et de sortie. Le dépassement de ces limites peut entraîner des erreurs ou une sortie tronquée. Avec TikToken, vous pouvez vérifier la longueur d'entrée et vous assurer qu'elle est conforme à la limite de marquage.

Conclusion

TikToken est un thésaurus open source qui offre une vitesse et une efficacité adaptées au modèle de langue Openai.

Apprendre à utiliser TikToken pour encoder et décoder du texte et ses différents modèles de codage peuvent améliorer considérablement votre travail avec de grands modèles de langue.

Obtenez la certification AI Top

prouver que vous pouvez utiliser l'IA efficace et de manière responsable. Soyez certifié, soyez embauché

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

4 Il y a quelques semaines By DDD

Comment réparer KB5055523 ne parvient pas à s'installer dans Windows 11?

3 Il y a quelques semaines By DDD

Comment réparer KB5055518 ne parvient pas à s'installer dans Windows 10?

3 Il y a quelques semaines By DDD

Niveaux de force pour chaque ennemi et monstre de R.E.P.O.

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Blue Prince: Comment se rendre au sous-sol

3 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7922

Tutoriel Java

1652

Tutoriel CakePHP

1411

Tutoriel Laravel

1303

Tutoriel PHP

1249

Afficher plus

Related knowledge

Début avec Meta Llama 3.2 - Analytics Vidhya Apr 11, 2025 pm 12:04 PM

META'S LLAMA 3.2: un bond en avant dans l'IA multimodal et mobile Meta a récemment dévoilé Llama 3.2, une progression importante de l'IA avec de puissantes capacités de vision et des modèles de texte légers optimisés pour les appareils mobiles. S'appuyer sur le succès o

10 extensions de codage générateur AI dans le code vs que vous devez explorer Apr 13, 2025 am 01:14 AM

Hé là, codant ninja! Quelles tâches liées au codage avez-vous prévues pour la journée? Avant de plonger plus loin dans ce blog, je veux que vous réfléchissiez à tous vos malheurs liés au codage - les énumérez. Fait? - Let & # 8217

AV Bytes: Meta & # 039; S Llama 3.2, Google's Gemini 1.5, et plus Apr 11, 2025 pm 12:01 PM

Le paysage de l'IA de cette semaine: un tourbillon de progrès, de considérations éthiques et de débats réglementaires. Les principaux acteurs comme Openai, Google, Meta et Microsoft ont déclenché un torrent de mises à jour, des nouveaux modèles révolutionnaires aux changements cruciaux de LE

Vendre une stratégie d'IA aux employés: le manifeste du PDG de Shopify Apr 10, 2025 am 11:19 AM

La récente note du PDG de Shopify Tobi Lütke déclare hardiment la maîtrise de l'IA une attente fondamentale pour chaque employé, marquant un changement culturel important au sein de l'entreprise. Ce n'est pas une tendance éphémère; C'est un nouveau paradigme opérationnel intégré à P

Un guide complet des modèles de langue de vision (VLMS) Apr 12, 2025 am 11:58 AM

Introduction Imaginez vous promener dans une galerie d'art, entourée de peintures et de sculptures vives. Maintenant, que se passe-t-il si vous pouviez poser une question à chaque pièce et obtenir une réponse significative? Vous pourriez demander: «Quelle histoire racontez-vous?

GPT-4O VS OpenAI O1: Le nouveau modèle Openai vaut-il le battage médiatique? Apr 13, 2025 am 10:18 AM

Introduction Openai a publié son nouveau modèle basé sur l'architecture «aux fraises» très attendue. Ce modèle innovant, connu sous le nom d'O1, améliore les capacités de raisonnement, lui permettant de réfléchir à des problèmes Mor

Lire l'index de l'IA 2025: L'AI est-elle votre ami, ennemi ou copilote? Apr 11, 2025 pm 12:13 PM

Le rapport de l'indice de l'intelligence artificielle de 2025 publié par le Stanford University Institute for Human-oriented Artificial Intelligence offre un bon aperçu de la révolution de l'intelligence artificielle en cours. Interprétons-le dans quatre concepts simples: cognition (comprendre ce qui se passe), l'appréciation (voir les avantages), l'acceptation (défis face à face) et la responsabilité (trouver nos responsabilités). Cognition: l'intelligence artificielle est partout et se développe rapidement Nous devons être très conscients de la rapidité avec laquelle l'intelligence artificielle se développe et se propage. Les systèmes d'intelligence artificielle s'améliorent constamment, obtenant d'excellents résultats en mathématiques et des tests de réflexion complexes, et il y a tout juste un an, ils ont échoué lamentablement dans ces tests. Imaginez des problèmes de codage complexes de résolution de l'IA ou des problèmes scientifiques au niveau des diplômés - depuis 2023

3 Méthodes pour exécuter Llama 3.2 - Analytics Vidhya Apr 11, 2025 am 11:56 AM

Meta's Llama 3.2: une centrale d'IA multimodale Le dernier modèle multimodal de META, LLAMA 3.2, représente une progression importante de l'IA, avec une compréhension du langage améliorée, une précision améliorée et des capacités de génération de texte supérieures. Sa capacité t

See all articles

Tutoriel Tiktoken: Bibliothèque Python Openai & # x27;

Bases d'Openai

O200K_BASE: Encodage du dernier modèle GPT-4O-MINI. CL100K_BASE: Modèles de codage pour les nouveaux modèles OpenAI tels que GPT-4 et GPT-3.5-Turbo. p50k_base: modèles de codex utilisés dans les applications de code. R50K_BASE: Encodage plus ancien pour différentes versions de GPT-3.

coder le texte en tant que marqueur

décoder la marque dans le texte

cas d'utilisation pratiques et conseils

Estimation et gestion des coûts

Vérification de la longueur d'entrée

Conclusion

Obtenez la certification AI Top

Outils d'IA chauds

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

Article chaud

Outils chauds

Bloc-notes++7.3.1

SublimeText3 version chinoise

Envoyer Studio 13.0.1

Dreamweaver CS6

SublimeText3 version Mac

Sujets chauds

O200K_BASE: Encodage du dernier modèle GPT-4O-MINI.

CL100K_BASE: Modèles de codage pour les nouveaux modèles OpenAI tels que GPT-4 et GPT-3.5-Turbo.

p50k_base: modèles de codex utilisés dans les applications de code.

R50K_BASE: Encodage plus ancien pour différentes versions de GPT-3.