Heim > Backend-Entwicklung > Python-Tutorial > Tokenisierung verstehen: Ein tiefer Einblick in Tokenisierer mit Hugging Face

Tokenisierung verstehen: Ein tiefer Einblick in Tokenisierer mit Hugging Face

Patricia Arquette
Freigeben: 2025-01-05 19:25:41
Original
904 Leute haben es durchsucht

Understanding Tokenization: A Deep Dive into Tokenizers with Hugging Face

Tokenisierung ist ein grundlegendes Konzept in der Verarbeitung natürlicher Sprache (NLP), insbesondere im Umgang mit Sprachmodellen. In diesem Artikel untersuchen wir, was ein Tokenizer tut, wie er funktioniert und wie wir ihn mithilfe der Transformers-Bibliothek von Hugging Face [https://huggingface.co/docs/transformers/index] für eine Vielzahl von Anwendungen nutzen können.

Was ist ein Tokenizer?

Im Kern zerlegt ein Tokenizer Rohtext in kleinere Einheiten, sogenannte Token. Diese Token können je nach Art des verwendeten Tokenizers Wörter, Teilwörter oder Zeichen darstellen. Das Ziel der Tokenisierung besteht darin, für Menschen lesbaren Text in eine Form umzuwandeln, die von Modellen des maschinellen Lernens besser interpretiert werden kann.

Die Tokenisierung ist von entscheidender Bedeutung, da die meisten Modelle Text nicht direkt verstehen. Stattdessen benötigen sie Zahlen, um Vorhersagen zu treffen, und hier kommt der Tokenizer ins Spiel. Er nimmt Text auf, verarbeitet ihn und gibt eine mathematische Darstellung aus, mit der das Modell arbeiten kann.

In diesem Beitrag gehen wir anhand eines vorab trainierten Modells von Hugging Face durch die Funktionsweise der Tokenisierung, erkunden die verschiedenen in der Transformers-Bibliothek verfügbaren Methoden und schauen uns an, wie die Tokenisierung nachgelagerte Aufgaben wie die Stimmungsanalyse beeinflusst.

Einrichten des Modells und des Tokenizers

Zuerst importieren wir die notwendigen Bibliotheken aus dem Transformers-Paket und laden ein vorab trainiertes Modell. Wir verwenden das für die Stimmungsanalyse optimierte Modell „DistilBERT“.

from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# Load the pre-trained model and tokenizer
model_name = "distilbert-base-uncased-finetuned-sst-2-english"
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Create the classifier pipeline
classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)
Nach dem Login kopieren
Nach dem Login kopieren

Text tokenisieren

Sobald das Modell und der Tokenizer eingerichtet sind, können wir mit der Tokenisierung eines einfachen Satzes beginnen. Hier ist ein Beispielsatz:

sentence = "I love you! I love you! I love you!"
Nach dem Login kopieren
Nach dem Login kopieren

Lassen Sie uns den Tokenisierungsprozess Schritt für Schritt aufschlüsseln:

1. Tokenizer-Ausgabe: Eingabe-IDs und Aufmerksamkeitsmaske

Wenn Sie den Tokenizer direkt aufrufen, verarbeitet er den Text und gibt mehrere Schlüsselkomponenten aus:

  • input_ids: Eine Liste ganzzahliger IDs, die die Token darstellen. Jeder Token entspricht einem Eintrag im Vokabular des Modells.
  • attention_mask: Eine Liste mit Einsen und Nullen, die angibt, welche Token vom Modell berücksichtigt werden sollen. Dies ist besonders nützlich, wenn es um Polsterung geht.
res = tokenizer(sentence)
print(res)
Nach dem Login kopieren
Nach dem Login kopieren

Ausgabe:

from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# Load the pre-trained model and tokenizer
model_name = "distilbert-base-uncased-finetuned-sst-2-english"
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Create the classifier pipeline
classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)
Nach dem Login kopieren
Nach dem Login kopieren
  • input_ids: Die Ganzzahlen repräsentieren die Token. Beispielsweise entspricht 1045 „Ich“, 2293 „Liebe“ und 999 „!“.
  • attention_mask: Die Einsen geben an, dass alle Token beachtet werden sollten. Wenn Fülltokens vorhanden wären, würden in dieser Liste Nullen angezeigt werden, was bedeutet, dass sie ignoriert werden sollten.

2. Tokenisierung

Wenn Sie wissen möchten, wie der Tokenizer den Satz in einzelne Token aufteilt, können Sie die Methode tokenize() verwenden. Dadurch erhalten Sie eine Liste der Token ohne die zugrunde liegenden IDs:

sentence = "I love you! I love you! I love you!"
Nach dem Login kopieren
Nach dem Login kopieren

Ausgabe:

res = tokenizer(sentence)
print(res)
Nach dem Login kopieren
Nach dem Login kopieren

Beachten Sie, dass bei der Tokenisierung der Satz in kleinere bedeutungsvolle Einheiten zerlegt wird. Der Tokenizer wandelt außerdem alle Zeichen in Kleinbuchstaben um, da wir das Distilbert-Base-Uncased-Modell verwenden, bei dem die Groß-/Kleinschreibung nicht beachtet wird.

3. Konvertieren von Tokens in IDs

Sobald wir die Token haben, besteht der nächste Schritt darin, sie mithilfe der Methode „convert_tokens_to_ids()“ in ihre entsprechenden ganzzahligen IDs umzuwandeln:

{
    'input_ids': [101, 1045, 2293, 2017, 999, 1045, 2293, 2017, 999, 1045, 2293, 2017, 999, 102],
    'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
}
Nach dem Login kopieren

Ausgabe:

tokens = tokenizer.tokenize(sentence)
print(tokens)
Nach dem Login kopieren

Jedes Token verfügt über eine eindeutige ganzzahlige ID, die es im Vokabular des Modells darstellt. Diese IDs sind die eigentlichen Eingaben, die das Modell zur Verarbeitung verwendet.

4. Dekodierung der IDs zurück in Text

Schließlich können Sie die Token-IDs mit der decode()-Methode wieder in eine für Menschen lesbare Zeichenfolge dekodieren:

['i', 'love', 'you', '!', 'i', 'love', 'you', '!', 'i', 'love', 'you', '!']
Nach dem Login kopieren

Ausgabe:

ids = tokenizer.convert_tokens_to_ids(tokens)
print(ids)
Nach dem Login kopieren

Beachten Sie, dass die dekodierte Zeichenfolge der ursprünglichen Eingabe sehr ähnlich ist, mit Ausnahme der Entfernung der Groß- und Kleinschreibung, die beim Modell ohne Groß-/Kleinschreibung Standard war.

Spezielle Token verstehen

In der Ausgabe der input_ids sind Ihnen möglicherweise zwei spezielle Token aufgefallen: 101 und 102. Diese Token sind spezielle Marker, die von vielen Modellen verwendet werden, um den Anfang und das Ende eines Satzes zu kennzeichnen. Konkret:

  • 101: Markiert den Satzanfang.
  • 102: Markiert das Ende des Satzes.

Diese speziellen Token helfen dem Modell, die Grenzen des Eingabetextes zu verstehen.

Die Aufmerksamkeitsmaske

Wie bereits erwähnt, hilft die Attention_mask dem Modell, zwischen echten Token und Fülltoken zu unterscheiden. In diesem Fall handelt es sich bei der Attention_mask um eine Liste von Einsen, die angibt, dass alle Token berücksichtigt werden sollten. Wenn Fülltokens vorhanden wären, würden Sie Nullen in der Maske sehen, um das Modell anzuweisen, sie zu ignorieren.

Zusammenfassung des Tokenizers

Zusammenfassend lässt sich sagen, dass die Tokenisierung ein entscheidender Schritt bei der Umwandlung von Text in eine Form ist, die maschinelle Lernmodelle verarbeiten können. Der Tokenizer von Hugging Face übernimmt verschiedene Aufgaben wie:

  • Text in Token umwandeln.
  • Zuordnung von Token zu eindeutigen Ganzzahl-IDs.
  • Erzeugen von Aufmerksamkeitsmasken, damit Models wissen, welche Token wichtig sind.

Abschluss

Zu verstehen, wie ein Tokenizer funktioniert, ist der Schlüssel zur effektiven Nutzung vorab trainierter Modelle. Indem wir den Text in kleinere Token zerlegen, ermöglichen wir dem Modell, die Eingabe strukturiert und effizient zu verarbeiten. Unabhängig davon, ob Sie ein Modell für die Stimmungsanalyse, die Textgenerierung oder eine andere NLP-Aufgabe verwenden, ist der Tokenizer ein unverzichtbares Werkzeug in der Pipeline.

Das obige ist der detaillierte Inhalt vonTokenisierung verstehen: Ein tiefer Einblick in Tokenisierer mit Hugging Face. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:dev.to
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage