Maison Périphériques technologiques IA C'est ainsi que les LLM décomposent la langue

C'est ainsi que les LLM décomposent la langue

Mar 11, 2025 am 10:40 AM

dévoiler les secrets des modèles de grande langue: une plongée profonde dans la tokenisation

Vous vous souvenez du buzz entourant le GPT-3 d'OpenAI en 2020? Bien que ce ne soit pas le premier de sa ligne, les capacités remarquables de génération de texte de GPT-3 l'ont catapultée à la gloire. Depuis lors, d'innombrables modèles de grandes langues (LLM) ont émergé. Mais comment les LLM aiment-elles le chatte de chatte de chatpt? La réponse réside dans un processus appelé tokenisation.

Cet article s'inspire de la série YouTube perspicace d'Andrej Karpathy, "Deep Dive dans des LLM comme Chatgpt", un incontournable pour quiconque cherche une compréhension plus profonde de LLMS. (Hautement recommandé!)

Avant d'explorer la tokenisation, examinons brièvement le fonctionnement interne d'un LLM. Sautez si vous êtes déjà familier avec les réseaux de neurones et les LLM.

Dans les modèles de grands langues

LLMS utilisent des réseaux de neurones du transformateur - des formules mathématiques complexes. L'entrée est une séquence de jetons (mots, phrases ou caractères) traités par des couches d'intégration, en les convertissant en représentations numériques. Ces entrées, ainsi que les paramètres du réseau (poids), sont introduites dans une équation mathématique massive.

Les réseaux de neurones modernes possèdent des milliards de paramètres, initialement définis au hasard. Le réseau fait initialement des prédictions aléatoires. La formation ajuste de manière itérative ces poids pour aligner la sortie du réseau avec les modèles dans les données de formation. La formation, par conséquent, implique de trouver l'ensemble de poids optimal qui reflète le mieux les propriétés statistiques des données de formation.

L'architecture du transformateur, introduit dans l'article 2017, "l'attention est tout ce dont vous avez besoin" par Vaswani et al., Est un réseau neuronal spécifiquement conçu pour le traitement des séquences. Initialement utilisé pour la traduction des machines neuronales, c'est maintenant la pierre angulaire de LLMS.

Pour une compréhension visuelle des réseaux de transformateurs au niveau de la production, visitez https://www.php.cn/link/f4a75336b061f291b6c11f5e4d6ebf7d . Ce site propose des visualisations 3D interactives des architectures GPT et de leur processus d'inférence.

C'est comment les llms décomposent le langage Ce nano-gpt. Paramètres) montre des séquences de jetons d'entrée traitées à travers les couches, subissant des transformations (mécanismes d'attention et réseaux de flux pour prédire le jetons suivant.

Tokenisation: la rupture du texte

Formation d'un LLM de pointe comme Chatgpt ou Claude implique plusieurs étages séquentiels. (Voir mon article précédent sur les hallucinations pour plus de détails sur le pipeline d'entraînement.)

Pretepraining, l'étape initiale, nécessite un ensemble de données massif et de haute qualité (téraoctets). Ces ensembles de données sont généralement propriétaires. Nous utiliserons l'ensemble de données OpenSource Fineweb à partir de Hugging Face (disponible sous la licence d'attribution Open Data Commons) par exemple. ( Plus de détails sur la création de finweb ici ).

Ceci est ainsi que LLMS décompose le langage un échantillon de fineweb (100 exemples concaténés).

C'est ainsi que LLMS décompose la langue Notre objectif est de former un réseau de neurones pour reproduire ce texte. Les réseaux de neurones nécessitent une séquence unidimensionnelle de symboles à partir d'un ensemble fini. Cela nécessite la conversion du texte en une telle séquence.

Nous commençons par une séquence de texte unidimensionnelle. Le codage UTF-8 convertit ceci en une séquence de bits bruts.

C'est comment décomposer le langage Les premiers 8 Bits représentent la lettre "A '. La séquence binaire, bien que techniquement une séquence de symboles (0 et 1), est trop longue. Nous avons besoin de séquences plus courtes avec plus de symboles. Le regroupement de 8 bits dans un octet nous donne une séquence de 256 symboles possibles (0-255).

C'est la façon dont LLM <p> <img src = src = "https://img.php.cn/upload/article/000/000/000/174166083192550.jpg" alt = "C'est ainsi que LLMS décompose le langage" /> Cette conversion est la tokenisation. Les modèles de pointe vont plus loin, en utilisant le codage des paires d'octets (BPE).

BPE identifie des paires d'octets consécutifs fréquents et les remplace par de nouveaux symboles. Par exemple, si "101 114" apparaît souvent, il est remplacé par un nouveau symbole. Ce processus répète, raccourcissant la séquence et élargissant le vocabulaire. GPT-4 utilise du BPE, résultant en un vocabulaire d'environ 100 000 jetons.

Explorez la tokenisation de manière interactive avec tktokizer Tokenisation pour divers modèles. Using GPT-4's cl100k_base encoder on the first four sentences yields:

<code>11787, 499, 21815, 369, 90250, 763, 14689, 30, 7694, 1555, 279, 21542, 3770, 323, 499, 1253, 1120, 1518, 701, 4832, 2457, 13, 9359, 1124, 323, 6642, 264, 3449, 709, 3010, 18396, 13, 1226, 617, 9214, 315, 1023, 3697, 430. 1093, 499, 0 </code>  pre> <p> <img src="https://img.php.cn/upload/article/000/000/000/174166084058435.jpg" alt="C'est la façon dont LLMS décompose le langage"> </p> <p> <em> cl100k_base </em>. </p> <p> <img src="https://img.php.cn/upload/article/000/000/000/174166084234224.jpg" alt="Il s'agit de la façon dont LLMS décompose le langage"> </p> <p> La tokenisation </p><p> est cruciale pour les LLM, transformant le texte brut en un format structuré pour les réseaux de neurones. La longueur de séquence d'équilibrage et la taille du vocabulaire sont essentielles pour l'efficacité de calcul. Les LLM modernes comme GPT utilisent le BPE pour des performances optimales. Comprendre la tokenisation fournit des informations précieuses sur le fonctionnement interne des LLMS. </p> <p> Suivez-moi sur X (anciennement Twitter) pour plus d'informations sur l'IA! </p> <p> <strong> Références </strong> </p> 
Copier après la connexion
  • Dive profondé
  • Visualisation LLM ( https://www.php.cn/link/f4a75336b061f291b6c11f5e4d6ebf7d )
  • Hallucinations LLM (link_to_hallucination_article)
  • HuggingFacefw / fineweb · DataSets at Hugging Face (link_to_huggingfaceface_fineweb)
  • fineweb: Décantation du Web pour les plus belles données de texte à grande échelle - un espace apparente étreint par… (https://www.php.cn/link/271df68653f0b3c70d446bdcbc6a2715)
  • Licence d'attribution de données ouvrir les données (ODC-ABY) Cours de NLP face étreinte (link_to_huggingface_bpe)
  • tikTokenizer (https://www.php.cn/link/3b8d83483189887a2f1a39d690463a8f)

Veuillez remplacer les liens entre le crochet. J'ai tenté de maintenir le formatage d'origine et les placements d'image comme demandé.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Meilleurs générateurs d'art AI (gratuit & amp; payé) pour des projets créatifs Meilleurs générateurs d'art AI (gratuit & amp; payé) pour des projets créatifs Apr 02, 2025 pm 06:10 PM

L'article passe en revue les meilleurs générateurs d'art AI, discutant de leurs fonctionnalités, de leur aptitude aux projets créatifs et de la valeur. Il met en évidence MidJourney comme la meilleure valeur pour les professionnels et recommande Dall-E 2 pour un art personnalisable de haute qualité.

Début avec Meta Llama 3.2 - Analytics Vidhya Début avec Meta Llama 3.2 - Analytics Vidhya Apr 11, 2025 pm 12:04 PM

META'S LLAMA 3.2: un bond en avant dans l'IA multimodal et mobile Meta a récemment dévoilé Llama 3.2, une progression importante de l'IA avec de puissantes capacités de vision et des modèles de texte légers optimisés pour les appareils mobiles. S'appuyer sur le succès o

Meilleurs chatbots AI comparés (Chatgpt, Gemini, Claude & amp; plus) Meilleurs chatbots AI comparés (Chatgpt, Gemini, Claude & amp; plus) Apr 02, 2025 pm 06:09 PM

L'article compare les meilleurs chatbots d'IA comme Chatgpt, Gemini et Claude, en se concentrant sur leurs fonctionnalités uniques, leurs options de personnalisation et leurs performances dans le traitement et la fiabilité du langage naturel.

Chatgpt 4 o est-il disponible? Chatgpt 4 o est-il disponible? Mar 28, 2025 pm 05:29 PM

Chatgpt 4 est actuellement disponible et largement utilisé, démontrant des améliorations significatives dans la compréhension du contexte et la génération de réponses cohérentes par rapport à ses prédécesseurs comme Chatgpt 3.5. Les développements futurs peuvent inclure un interg plus personnalisé

Assistants d'écriture de l'IA pour augmenter votre création de contenu Assistants d'écriture de l'IA pour augmenter votre création de contenu Apr 02, 2025 pm 06:11 PM

L'article traite des meilleurs assistants d'écriture d'IA comme Grammarly, Jasper, Copy.ai, WireSonic et Rytr, en se concentrant sur leurs fonctionnalités uniques pour la création de contenu. Il soutient que Jasper excelle dans l'optimisation du référencement, tandis que les outils d'IA aident à maintenir le ton

Top 7 Système de chiffon agentique pour construire des agents d'IA Top 7 Système de chiffon agentique pour construire des agents d'IA Mar 31, 2025 pm 04:25 PM

2024 a été témoin d'un simple passage de l'utilisation des LLM pour la génération de contenu pour comprendre leur fonctionnement intérieur. Cette exploration a conduit à la découverte des agents de l'IA - les systèmes autonomes manipulant des tâches et des décisions avec une intervention humaine minimale. Construire

Vendre une stratégie d'IA aux employés: le manifeste du PDG de Shopify Vendre une stratégie d'IA aux employés: le manifeste du PDG de Shopify Apr 10, 2025 am 11:19 AM

La récente note du PDG de Shopify Tobi Lütke déclare hardiment la maîtrise de l'IA une attente fondamentale pour chaque employé, marquant un changement culturel important au sein de l'entreprise. Ce n'est pas une tendance éphémère; C'est un nouveau paradigme opérationnel intégré à P

Choisir le meilleur générateur de voix d'IA: les meilleures options examinées Choisir le meilleur générateur de voix d'IA: les meilleures options examinées Apr 02, 2025 pm 06:12 PM

L'article examine les meilleurs générateurs de voix d'IA comme Google Cloud, Amazon Polly, Microsoft Azure, IBM Watson et Descript, en se concentrant sur leurs fonctionnalités, leur qualité vocale et leur aptitude à différents besoins.

See all articles