C'est ainsi que les LLM décomposent la langue
dévoiler les secrets des modèles de grande langue: une plongée profonde dans la tokenisation
Vous vous souvenez du buzz entourant le GPT-3 d'OpenAI en 2020? Bien que ce ne soit pas le premier de sa ligne, les capacités remarquables de génération de texte de GPT-3 l'ont catapultée à la gloire. Depuis lors, d'innombrables modèles de grandes langues (LLM) ont émergé. Mais comment les LLM aiment-elles le chatte de chatte de chatpt? La réponse réside dans un processus appelé tokenisation.
Cet article s'inspire de la série YouTube perspicace d'Andrej Karpathy, "Deep Dive dans des LLM comme Chatgpt", un incontournable pour quiconque cherche une compréhension plus profonde de LLMS. (Hautement recommandé!)
Avant d'explorer la tokenisation, examinons brièvement le fonctionnement interne d'un LLM. Sautez si vous êtes déjà familier avec les réseaux de neurones et les LLM.
Dans les modèles de grands langues
LLMS utilisent des réseaux de neurones du transformateur - des formules mathématiques complexes. L'entrée est une séquence de jetons (mots, phrases ou caractères) traités par des couches d'intégration, en les convertissant en représentations numériques. Ces entrées, ainsi que les paramètres du réseau (poids), sont introduites dans une équation mathématique massive.
Les réseaux de neurones modernes possèdent des milliards de paramètres, initialement définis au hasard. Le réseau fait initialement des prédictions aléatoires. La formation ajuste de manière itérative ces poids pour aligner la sortie du réseau avec les modèles dans les données de formation. La formation, par conséquent, implique de trouver l'ensemble de poids optimal qui reflète le mieux les propriétés statistiques des données de formation.
L'architecture du transformateur, introduit dans l'article 2017, "l'attention est tout ce dont vous avez besoin" par Vaswani et al., Est un réseau neuronal spécifiquement conçu pour le traitement des séquences. Initialement utilisé pour la traduction des machines neuronales, c'est maintenant la pierre angulaire de LLMS.
Pour une compréhension visuelle des réseaux de transformateurs au niveau de la production, visitez https://www.php.cn/link/f4a75336b061f291b6c11f5e4d6ebf7d . Ce site propose des visualisations 3D interactives des architectures GPT et de leur processus d'inférence.
Ce nano-gpt. Paramètres) montre des séquences de jetons d'entrée traitées à travers les couches, subissant des transformations (mécanismes d'attention et réseaux de flux pour prédire le jetons suivant.
Tokenisation: la rupture du texte
Formation d'un LLM de pointe comme Chatgpt ou Claude implique plusieurs étages séquentiels. (Voir mon article précédent sur les hallucinations pour plus de détails sur le pipeline d'entraînement.)
Pretepraining, l'étape initiale, nécessite un ensemble de données massif et de haute qualité (téraoctets). Ces ensembles de données sont généralement propriétaires. Nous utiliserons l'ensemble de données OpenSource Fineweb à partir de Hugging Face (disponible sous la licence d'attribution Open Data Commons) par exemple. ( Plus de détails sur la création de finweb ici ).
un échantillon de fineweb (100 exemples concaténés).
Notre objectif est de former un réseau de neurones pour reproduire ce texte. Les réseaux de neurones nécessitent une séquence unidimensionnelle de symboles à partir d'un ensemble fini. Cela nécessite la conversion du texte en une telle séquence.
Nous commençons par une séquence de texte unidimensionnelle. Le codage UTF-8 convertit ceci en une séquence de bits bruts.
Les premiers 8 Bits représentent la lettre "A '. La séquence binaire, bien que techniquement une séquence de symboles (0 et 1), est trop longue. Nous avons besoin de séquences plus courtes avec plus de symboles. Le regroupement de 8 bits dans un octet nous donne une séquence de 256 symboles possibles (0-255).
src = "https://img.php.cn/upload/article/000/000/000/174166083192550.jpg" alt = "C'est ainsi que LLMS décompose le langage" /> Cette conversion est la tokenisation. Les modèles de pointe vont plus loin, en utilisant le codage des paires d'octets (BPE).
BPE identifie des paires d'octets consécutifs fréquents et les remplace par de nouveaux symboles. Par exemple, si "101 114" apparaît souvent, il est remplacé par un nouveau symbole. Ce processus répète, raccourcissant la séquence et élargissant le vocabulaire. GPT-4 utilise du BPE, résultant en un vocabulaire d'environ 100 000 jetons.
Explorez la tokenisation de manière interactive avec tktokizer Tokenisation pour divers modèles. Using GPT-4's cl100k_base encoder on the first four sentences yields:
<code>11787, 499, 21815, 369, 90250, 763, 14689, 30, 7694, 1555, 279, 21542, 3770, 323, 499, 1253, 1120, 1518, 701, 4832, 2457, 13, 9359, 1124, 323, 6642, 264, 3449, 709, 3010, 18396, 13, 1226, 617, 9214, 315, 1023, 3697, 430. 1093, 499, 0 </code> pre> <p> <img src="https://img.php.cn/upload/article/000/000/000/174166084058435.jpg" alt="C'est la façon dont LLMS décompose le langage"> </p> <p> <em> cl100k_base </em>. </p> <p> <img src="https://img.php.cn/upload/article/000/000/000/174166084234224.jpg" alt="Il s'agit de la façon dont LLMS décompose le langage"> </p> <p> La tokenisation </p><p> est cruciale pour les LLM, transformant le texte brut en un format structuré pour les réseaux de neurones. La longueur de séquence d'équilibrage et la taille du vocabulaire sont essentielles pour l'efficacité de calcul. Les LLM modernes comme GPT utilisent le BPE pour des performances optimales. Comprendre la tokenisation fournit des informations précieuses sur le fonctionnement interne des LLMS. </p> <p> Suivez-moi sur X (anciennement Twitter) pour plus d'informations sur l'IA! </p> <p> <strong> Références </strong> </p>
- Dive profondé
- Visualisation LLM ( https://www.php.cn/link/f4a75336b061f291b6c11f5e4d6ebf7d )
- Hallucinations LLM (link_to_hallucination_article)
- HuggingFacefw / fineweb · DataSets at Hugging Face (link_to_huggingfaceface_fineweb)
- fineweb: Décantation du Web pour les plus belles données de texte à grande échelle - un espace apparente étreint par… (https://www.php.cn/link/271df68653f0b3c70d446bdcbc6a2715)
- Licence d'attribution de données ouvrir les données (ODC-ABY) Cours de NLP face étreinte (link_to_huggingface_bpe)
- tikTokenizer (https://www.php.cn/link/3b8d83483189887a2f1a39d690463a8f)
Veuillez remplacer les liens entre le crochet. J'ai tenté de maintenir le formatage d'origine et les placements d'image comme demandé.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

L'article passe en revue les meilleurs générateurs d'art AI, discutant de leurs fonctionnalités, de leur aptitude aux projets créatifs et de la valeur. Il met en évidence MidJourney comme la meilleure valeur pour les professionnels et recommande Dall-E 2 pour un art personnalisable de haute qualité.

META'S LLAMA 3.2: un bond en avant dans l'IA multimodal et mobile Meta a récemment dévoilé Llama 3.2, une progression importante de l'IA avec de puissantes capacités de vision et des modèles de texte légers optimisés pour les appareils mobiles. S'appuyer sur le succès o

L'article compare les meilleurs chatbots d'IA comme Chatgpt, Gemini et Claude, en se concentrant sur leurs fonctionnalités uniques, leurs options de personnalisation et leurs performances dans le traitement et la fiabilité du langage naturel.

Chatgpt 4 est actuellement disponible et largement utilisé, démontrant des améliorations significatives dans la compréhension du contexte et la génération de réponses cohérentes par rapport à ses prédécesseurs comme Chatgpt 3.5. Les développements futurs peuvent inclure un interg plus personnalisé

L'article traite des meilleurs assistants d'écriture d'IA comme Grammarly, Jasper, Copy.ai, WireSonic et Rytr, en se concentrant sur leurs fonctionnalités uniques pour la création de contenu. Il soutient que Jasper excelle dans l'optimisation du référencement, tandis que les outils d'IA aident à maintenir le ton

2024 a été témoin d'un simple passage de l'utilisation des LLM pour la génération de contenu pour comprendre leur fonctionnement intérieur. Cette exploration a conduit à la découverte des agents de l'IA - les systèmes autonomes manipulant des tâches et des décisions avec une intervention humaine minimale. Construire

La récente note du PDG de Shopify Tobi Lütke déclare hardiment la maîtrise de l'IA une attente fondamentale pour chaque employé, marquant un changement culturel important au sein de l'entreprise. Ce n'est pas une tendance éphémère; C'est un nouveau paradigme opérationnel intégré à P

L'article examine les meilleurs générateurs de voix d'IA comme Google Cloud, Amazon Polly, Microsoft Azure, IBM Watson et Descript, en se concentrant sur leurs fonctionnalités, leur qualité vocale et leur aptitude à différents besoins.
