Tokenisierung ist ein grundlegendes Konzept in der Verarbeitung natürlicher Sprache (NLP), insbesondere im Umgang mit Sprachmodellen. In diesem Artikel untersuchen wir, was ein Tokenizer tut, wie er funktioniert und wie wir ihn mithilfe der Transformers-Bibliothek von Hugging Face [https://huggingface.co/docs/transformers/index] für eine Vielzahl von Anwendungen nutzen können.
Im Kern zerlegt ein Tokenizer Rohtext in kleinere Einheiten, sogenannte Token. Diese Token können je nach Art des verwendeten Tokenizers Wörter, Teilwörter oder Zeichen darstellen. Das Ziel der Tokenisierung besteht darin, für Menschen lesbaren Text in eine Form umzuwandeln, die von Modellen des maschinellen Lernens besser interpretiert werden kann.
Die Tokenisierung ist von entscheidender Bedeutung, da die meisten Modelle Text nicht direkt verstehen. Stattdessen benötigen sie Zahlen, um Vorhersagen zu treffen, und hier kommt der Tokenizer ins Spiel. Er nimmt Text auf, verarbeitet ihn und gibt eine mathematische Darstellung aus, mit der das Modell arbeiten kann.
In diesem Beitrag gehen wir anhand eines vorab trainierten Modells von Hugging Face durch die Funktionsweise der Tokenisierung, erkunden die verschiedenen in der Transformers-Bibliothek verfügbaren Methoden und schauen uns an, wie die Tokenisierung nachgelagerte Aufgaben wie die Stimmungsanalyse beeinflusst.
Zuerst importieren wir die notwendigen Bibliotheken aus dem Transformers-Paket und laden ein vorab trainiertes Modell. Wir verwenden das für die Stimmungsanalyse optimierte Modell „DistilBERT“.
from transformers import pipeline from transformers import AutoTokenizer, AutoModelForSequenceClassification # Load the pre-trained model and tokenizer model_name = "distilbert-base-uncased-finetuned-sst-2-english" model = AutoModelForSequenceClassification.from_pretrained(model_name) tokenizer = AutoTokenizer.from_pretrained(model_name) # Create the classifier pipeline classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)
Sobald das Modell und der Tokenizer eingerichtet sind, können wir mit der Tokenisierung eines einfachen Satzes beginnen. Hier ist ein Beispielsatz:
sentence = "I love you! I love you! I love you!"
Lassen Sie uns den Tokenisierungsprozess Schritt für Schritt aufschlüsseln:
Wenn Sie den Tokenizer direkt aufrufen, verarbeitet er den Text und gibt mehrere Schlüsselkomponenten aus:
res = tokenizer(sentence) print(res)
Ausgabe:
from transformers import pipeline from transformers import AutoTokenizer, AutoModelForSequenceClassification # Load the pre-trained model and tokenizer model_name = "distilbert-base-uncased-finetuned-sst-2-english" model = AutoModelForSequenceClassification.from_pretrained(model_name) tokenizer = AutoTokenizer.from_pretrained(model_name) # Create the classifier pipeline classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)
Wenn Sie wissen möchten, wie der Tokenizer den Satz in einzelne Token aufteilt, können Sie die Methode tokenize() verwenden. Dadurch erhalten Sie eine Liste der Token ohne die zugrunde liegenden IDs:
sentence = "I love you! I love you! I love you!"
Ausgabe:
res = tokenizer(sentence) print(res)
Beachten Sie, dass bei der Tokenisierung der Satz in kleinere bedeutungsvolle Einheiten zerlegt wird. Der Tokenizer wandelt außerdem alle Zeichen in Kleinbuchstaben um, da wir das Distilbert-Base-Uncased-Modell verwenden, bei dem die Groß-/Kleinschreibung nicht beachtet wird.
Sobald wir die Token haben, besteht der nächste Schritt darin, sie mithilfe der Methode „convert_tokens_to_ids()“ in ihre entsprechenden ganzzahligen IDs umzuwandeln:
{ 'input_ids': [101, 1045, 2293, 2017, 999, 1045, 2293, 2017, 999, 1045, 2293, 2017, 999, 102], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1] }
Ausgabe:
tokens = tokenizer.tokenize(sentence) print(tokens)
Jedes Token verfügt über eine eindeutige ganzzahlige ID, die es im Vokabular des Modells darstellt. Diese IDs sind die eigentlichen Eingaben, die das Modell zur Verarbeitung verwendet.
Schließlich können Sie die Token-IDs mit der decode()-Methode wieder in eine für Menschen lesbare Zeichenfolge dekodieren:
['i', 'love', 'you', '!', 'i', 'love', 'you', '!', 'i', 'love', 'you', '!']
Ausgabe:
ids = tokenizer.convert_tokens_to_ids(tokens) print(ids)
Beachten Sie, dass die dekodierte Zeichenfolge der ursprünglichen Eingabe sehr ähnlich ist, mit Ausnahme der Entfernung der Groß- und Kleinschreibung, die beim Modell ohne Groß-/Kleinschreibung Standard war.
In der Ausgabe der input_ids sind Ihnen möglicherweise zwei spezielle Token aufgefallen: 101 und 102. Diese Token sind spezielle Marker, die von vielen Modellen verwendet werden, um den Anfang und das Ende eines Satzes zu kennzeichnen. Konkret:
Diese speziellen Token helfen dem Modell, die Grenzen des Eingabetextes zu verstehen.
Wie bereits erwähnt, hilft die Attention_mask dem Modell, zwischen echten Token und Fülltoken zu unterscheiden. In diesem Fall handelt es sich bei der Attention_mask um eine Liste von Einsen, die angibt, dass alle Token berücksichtigt werden sollten. Wenn Fülltokens vorhanden wären, würden Sie Nullen in der Maske sehen, um das Modell anzuweisen, sie zu ignorieren.
Zusammenfassend lässt sich sagen, dass die Tokenisierung ein entscheidender Schritt bei der Umwandlung von Text in eine Form ist, die maschinelle Lernmodelle verarbeiten können. Der Tokenizer von Hugging Face übernimmt verschiedene Aufgaben wie:
Zu verstehen, wie ein Tokenizer funktioniert, ist der Schlüssel zur effektiven Nutzung vorab trainierter Modelle. Indem wir den Text in kleinere Token zerlegen, ermöglichen wir dem Modell, die Eingabe strukturiert und effizient zu verarbeiten. Unabhängig davon, ob Sie ein Modell für die Stimmungsanalyse, die Textgenerierung oder eine andere NLP-Aufgabe verwenden, ist der Tokenizer ein unverzichtbares Werkzeug in der Pipeline.
Das obige ist der detaillierte Inhalt vonTokenisierung verstehen: Ein tiefer Einblick in Tokenisierer mit Hugging Face. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!