Einführung des natürlichen Sprach -Toolkits (NLTK)-Python-Tutorial-php.cn

Einführung des natürlichen Sprach -Toolkits (NLTK)

William Shakespeare

Freigeben： 2025-03-01 10:05:09

Original

193 Leute haben es durchsucht

natürliche Sprachverarbeitung (NLP) ist die automatische oder halbautomatische Verarbeitung der menschlichen Sprache. NLP ist eng mit der Linguistik verwandt und hat Verbindungen zur Forschung in kognitiven Wissenschaft, Psychologie, Physiologie und Mathematik. Insbesondere im Bereich der Informatik betrifft NLP mit Compiler-Techniken, formalen Sprachtheorie, Interaktion zwischen Mensch und Komputer, maschinellem Lernen und Theoreme. Diese Quora -Frage zeigt die unterschiedlichen Vorteile von NLP. Bevor wir sehen, wie man mit dieser Plattform arbeitet, möchte ich Ihnen zunächst sagen, was NLTK ist.

Was ist NLTK? Die Plattform wurde ursprünglich von Steven Bird und Edward Loper in Verbindung mit einem Computer -Linguistikkurs an der Universität von Pennsylvania im Jahr 2001 veröffentlicht. Es gibt ein begleitendes Buch für die Plattform namens Natural Language Processing mit Python. Es wird Spaß machen!

Die Installation von NLTK ist sehr einfach. Ich verwende Windows 10, also in meiner Eingabeaufforderung (sent_tokenize ()

Methode.

Betrachten Sie den folgenden Text. Ausgabe:

Wie Sie aus der Ausgabe sehen können, werden auch Wörter ausgestrahlt. Sie werden zunächst einige Stop -Wörter mit dem folgenden Skript verwendet:

In diesem Fall werden Sie die folgende Ausgabe ergeben: folgt:

Wie können wir die Stoppwörter aus unserem eigenen Text entfernen? Das folgende Beispiel zeigt, wie wir diese Aufgabe ausführen können:

"Python is a very high-level programming language. Python is interpreted."<br>

Nach dem Login kopieren

Die Ausgabe des obigen Skripts lautet: word_tokenize()

from nltk.tokenize import word_tokenize
text = "Python is a very high-level programming language. Python is interpreted."<br>print(word_tokenize(text))

Nach dem Login kopieren

Also, was die Funktion

 word_tokenize () <p> hat: </p>
<blockquote> tokenisieren Sie eine Zeichenfolge, um die Interpunktion außer Perioden zu teilen </blockquote> <h3> Suchen </h3> <p> Nehmen wir an, wir haben die folgende Textdatei (laden Sie die Textdatei von Dropbox herunter). Wir möchten nach dem Wort <code>language

suchen (suchen). Wir können dies einfach mit der NLTK -Plattform wie folgt tun:

"Python is a very high-level programming language. Python is interpreted."<br>

Nach dem Login kopieren

In diesem Fall erhalten Sie die folgende Ausgabe:

Einführung des natürlichen Sprach -Toolkits (NLTK)

Beachten Sie, dass concordance() zusätzlich zu einem Kontext jedes Vorkommen des Wortes language zurückgibt. Vorher, wie im obigen Skript gezeigt, tokenisieren wir die Lesedatei und konvertieren sie dann in ein nltk.Text Objekt.

Der Gutenberg Corpus

from nltk.tokenize import word_tokenize
text = "Python is a very high-level programming language. Python is interpreted."<br>print(word_tokenize(text))

Nach dem Login kopieren

Wie in Wikipedia erwähnt: chcp 65001

Projekt Gutenberg (PG) ist eine freiwillige Bemühungen, kulturelle Werke zu digitalisieren und zu archivieren, um "die Schöpfung und Verteilung von Ebooks zu fördern". Es wurde 1971 von Michael S. Hart gegründet und ist die älteste digitale Bibliothek. Die meisten Elemente in seiner Sammlung sind die vollständigen Texte von öffentlich -Domain -Büchern. Das Projekt versucht, diese in langlebigen, offenen Formaten so frei wie möglich zu gestalten, die auf nahezu jedem Computer verwendet werden können. Zum 3. Oktober 2015 erreichte Project Gutenberg in seiner Sammlung 50.000 Elemente. Um die enthaltenen Dateien von Project Gutenberg zu sehen, machen wir Folgendes:

Die Ausgabe des obigen Skripts ist wie folgt:

Wenn wir die Anzahl der Wörter für die Textdatei finden möchten, können wir die folgenden Wörter zurückgeben:

['Python', 'is', 'a', 'very', 'high-level', 'programming', 'language', '.', 'Python', 'is', 'interpreted', '.']<br>

Nach dem Login kopieren

Schlussfolgerung

Wie wir in diesem Tutorial gesehen haben, bietet uns die NLTK -Plattform ein leistungsstarkes Werkzeug für die Arbeit mit natürlicher Sprachverarbeitung (NLP). Ich habe in diesem Tutorial nur die Oberfläche zerkratzt. Wenn Sie die Verwendung von NLTK für verschiedene NLP -Aufgaben tiefer verwenden möchten, können Sie sich auf das begleitende Buch von NLTK beziehen: natürliche Sprachverarbeitung mit Python. Esther ist ein Softwareentwickler und Autor für Envato -Tuts.

Das obige ist der detaillierte Inhalt vonEinführung des natürlichen Sprach -Toolkits (NLTK). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!