Heim Backend-Entwicklung Python-Tutorial Textvorverarbeitungstechniken in Python

Textvorverarbeitungstechniken in Python

Jun 11, 2023 am 08:56 AM
文本处理 python编程 预处理技巧

Python ist eine leistungsstarke Programmiersprache, die in den Bereichen Datenwissenschaft, maschinelles Lernen, Verarbeitung natürlicher Sprache und anderen Bereichen weit verbreitet ist. In diesen Bereichen ist die Textvorverarbeitung ein sehr wichtiger Schritt, der das Rauschen von Textdaten reduzieren und die Genauigkeit des Modells verbessern kann. In diesem Artikel stellen wir einige gängige Textvorverarbeitungstechniken in Python vor.

1. Textdaten lesen

In Python können Sie die Funktion open() verwenden, um Textdateien zu lesen.

with open('example.txt', 'r') as f:
    text = f.read()
Nach dem Login kopieren

In diesem Beispiel öffnen wir eine Textdatei mit dem Namen „example.txt“ und lesen ihren Inhalt. Der Inhalt dieser Textdatei wird in einer String-Variablen namens „text“ gespeichert. Zusätzlich zur Funktion read() können wir auch die Funktion readlines() verwenden, um den Inhalt einer Textdatei in einer Liste zu speichern.

with open('example.txt', 'r') as f:
    lines = f.readlines()
Nach dem Login kopieren

In diesem Beispiel wird der Inhalt von „example.txt“ als Liste gespeichert, wobei jede Zeile ein Element der Liste ist. Dies ist nützlich, wenn Sie mit umfangreichen Textdaten arbeiten, da mehrere Datenzeilen gleichzeitig gelesen und verarbeitet werden können.

2. Satzzeichen und Zahlen entfernen

Bei der Textvorverarbeitung müssen wir normalerweise Satzzeichen und Zahlen aus dem Text entfernen. Das re-Modul in Python bietet sehr praktische reguläre Ausdrucksfunktionen zur Bewältigung dieser Aufgaben.

import re

text = "This is an example sentence! 12345."
text = re.sub(r'[^ws]', '', text) # Remove punctuation
text = re.sub(r'd+', '', text) # Remove numbers
Nach dem Login kopieren

In diesem Beispiel verwenden wir zunächst die Funktion re.sub() und den regulären Ausdruck „1“, um alle Satzzeichen und Leerzeichen zu entfernen. Anschließend verwenden wir die Funktion re.sub() und den regulären Ausdruck „d+“, um alle Zahlen aus dem Text zu entfernen. Abschließend speichern wir den verarbeiteten Text in der String-Variablen „text“.

3. Wortsegmentierung

Wortsegmentierung bezieht sich auf die Aufteilung des Textes in einzelne Wörter. Die nltk-Bibliothek und die spaCy-Bibliothek in Python bieten beide sehr nützliche Tools zur Wortsegmentierung. Hier nehmen wir die NLTK-Bibliothek als Beispiel.

import nltk

nltk.download('punkt')

text = "This is an example sentence."
words = nltk.word_tokenize(text)
Nach dem Login kopieren

In diesem Beispiel haben wir zuerst das Punkt-Paket der NLTK-Bibliothek heruntergeladen, ein sehr beliebtes Wortsegmentierungs-Toolkit in der NLTK-Bibliothek. Anschließend verwenden wir die Funktion nltk.word_tokenize(), um den Text in Wörter aufzuteilen und die Ergebnisse in der Liste „Wörter“ zu speichern.

4. Stoppwörter entfernen

Bei der Textverarbeitung ist es oft notwendig, häufige Stoppwörter zu entfernen, darunter „ist“, „a“, „dies“ usw. Die nltk-Bibliothek und die spaCy-Bibliothek in Python bieten ebenfalls gute Stoppwortlisten. Unten finden Sie ein Beispiel für die Verwendung der NLTK-Bibliothek.

import nltk

nltk.download('stopwords')

from nltk.corpus import stopwords

text = "This is an example sentence."
words = nltk.word_tokenize(text)

filtered_words = [word for word in words if word.lower() not in stopwords.words('english')]
Nach dem Login kopieren

In diesem Beispiel haben wir zuerst das Stoppwortpaket der NLTK-Bibliothek heruntergeladen und daraus die englische Stoppwortliste importiert. Anschließend verwenden wir Listenverständnis, um die Stoppwörter im Text aus der Wortliste zu entfernen. Schließlich erhalten wir eine Wortliste „filtered_words“, die keine Stoppwörter enthält.

5. Stemming

Stemming ist der Prozess der Normalisierung verschiedener Formen von Wörtern (wie Zeitform, Singular und Plural usw.) in die gleiche Form. Sowohl die nltk-Bibliothek als auch die spaCy-Bibliothek in Python bieten sehr nützliche Stemming-Tools. Hier nehmen wir auch die NLTK-Bibliothek als Beispiel.

import nltk

from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

text = "This is an example sentence."
words = nltk.word_tokenize(text)

stemmed_words = [stemmer.stem(word) for word in words]
Nach dem Login kopieren

In diesem Beispiel haben wir zuerst die PorterStemmer-Klasse aus der nltk-Bibliothek importiert. Dann instanziieren wir ein PorterStemmer-Objekt. Als nächstes verwenden wir Listenverständnisse, um die Wortstämme aus dem Text zu extrahieren und die Ergebnisse in der Liste „stemmed_words“ zu speichern.

6. Part-of-Speech-Tagging

Unter Part-of-Speech-Tagging versteht man den Prozess der Markierung von Wörtern im Text in ihren Wortarten (z. B. Substantive, Verben, Adjektive usw.). Die nltk-Bibliothek und die spaCy-Bibliothek in Python bieten auch sehr nützliche Wortart-Tagging-Tools. Hier nehmen wir auch die NLTK-Bibliothek als Beispiel.

import nltk

nltk.download('averaged_perceptron_tagger')

text = "This is an example sentence."
words = nltk.word_tokenize(text)

tagged_words = nltk.pos_tag(words)
Nach dem Login kopieren

In diesem Beispiel haben wir zuerst das Averaged_perceptron_tagger-Paket der NLTK-Bibliothek heruntergeladen. Anschließend verwenden wir die Funktion nltk.word_tokenize(), um den Text in Wörter aufzuteilen und die Ergebnisse in der Liste „Wörter“ zu speichern. Als nächstes verwenden wir die Funktion nltk.pos_tag(), um Wörter mit ihren Wortarten zu kennzeichnen und die Ergebnisse in der Liste „tagged_words“ zu speichern.

Zusammenfassung

In diesem Artikel werden einige häufig verwendete Textvorverarbeitungstechniken in Python vorgestellt, darunter das Lesen von Textdaten, das Entfernen von Satzzeichen und Zahlen, die Wortsegmentierung, das Entfernen von Stoppwörtern, die Wortstammerkennung und die Kennzeichnung von Wortarten usw. Diese Techniken sind sehr nützlich und werden häufig in der Textverarbeitung eingesetzt. In praktischen Anwendungen können wir je nach Bedarf geeignete Techniken zur Textvorverarbeitung auswählen, um die Genauigkeit und Wirkung unserer Daten zu verbessern.


  1. ws

Das obige ist der detaillierte Inhalt vonTextvorverarbeitungstechniken in Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

AssertionError: Wie behebe ich Python-Assertionsfehler? AssertionError: Wie behebe ich Python-Assertionsfehler? Jun 25, 2023 pm 11:07 PM

Behauptungen in Python sind ein nützliches Werkzeug für Programmierer zum Debuggen ihres Codes. Es wird verwendet, um zu überprüfen, ob der interne Status des Programms den Erwartungen entspricht, und um einen Assertionsfehler (AssertionError) auszulösen, wenn diese Bedingungen falsch sind. Während des Entwicklungsprozesses werden beim Testen und Debuggen Assertionen verwendet, um zu überprüfen, ob der Status des Codes mit den erwarteten Ergebnissen übereinstimmt. In diesem Artikel werden die Ursachen, Lösungen und die korrekte Verwendung von Zusicherungen in Ihrem Code erläutert. Ursache des Assertion-Fehlers. Assertion-Fehler bestanden

Python für NLP: Wie verarbeite ich Text in PDF-Dateien mithilfe der PDFMiner-Bibliothek? Python für NLP: Wie verarbeite ich Text in PDF-Dateien mithilfe der PDFMiner-Bibliothek? Sep 27, 2023 pm 02:34 PM

PythonforNLP: Wie verarbeite ich Text in PDF-Dateien mithilfe der PDFMiner-Bibliothek? Einführung: PDF (Portable Document Format) ist ein Format zum Speichern von Dokumenten, das normalerweise zum Teilen und Verteilen elektronischer Dokumente verwendet wird. Im Bereich der Verarbeitung natürlicher Sprache (NLP) müssen wir häufig Text aus PDF-Dateien extrahieren, um ihn zu analysieren und zu verarbeiten. Python bietet viele Bibliotheken zur Verarbeitung von PDF-Dateien, darunter PDFMiner

So entwickeln Sie einen Schwachstellenscanner in Python So entwickeln Sie einen Schwachstellenscanner in Python Jul 01, 2023 am 08:10 AM

Überblick über die Entwicklung eines Schwachstellenscanners mit Python In der heutigen Umgebung zunehmender Sicherheitsbedrohungen im Internet sind Schwachstellenscanner zu einem wichtigen Werkzeug zum Schutz der Netzwerksicherheit geworden. Python ist eine beliebte Programmiersprache, die prägnant, leicht lesbar und leistungsstark ist und sich für die Entwicklung verschiedener praktischer Tools eignet. In diesem Artikel erfahren Sie, wie Sie mit Python einen Schwachstellenscanner entwickeln, der Ihr Netzwerk in Echtzeit schützt. Schritt 1: Scanziele festlegen Bevor Sie einen Schwachstellenscanner entwickeln, müssen Sie festlegen, welche Ziele Sie scannen möchten. Dies kann Ihr eigenes Netzwerk sein oder alles, was Sie testen dürfen

So verwenden Sie Python für die Skripterstellung und Ausführung unter Linux So verwenden Sie Python für die Skripterstellung und Ausführung unter Linux Oct 05, 2023 am 11:45 AM

So verwenden Sie Python zum Schreiben und Ausführen von Skripten unter Linux. Im Linux-Betriebssystem können wir Python zum Schreiben und Ausführen verschiedener Skripte verwenden. Python ist eine prägnante und leistungsstarke Programmiersprache, die eine Fülle von Bibliotheken und Tools bereitstellt, um die Skripterstellung einfacher und effizienter zu machen. Im Folgenden stellen wir die grundlegenden Schritte zur Verwendung von Python zum Schreiben und Ausführen von Skripten unter Linux vor und stellen einige spezifische Codebeispiele bereit, die Ihnen helfen, es besser zu verstehen und zu verwenden. Installieren Sie Python

Verwendung der Funktion sqrt() in Python Verwendung der Funktion sqrt() in Python Feb 21, 2024 pm 03:09 PM

Verwendung und Codebeispiele der Funktion sqrt() in Python 1. Funktion und Einführung der Funktion sqrt() In der Python-Programmierung ist die Funktion sqrt() eine Funktion im Mathematikmodul und ihre Funktion besteht darin, die Quadratwurzel von zu berechnen eine Zahl. Die Quadratwurzel bedeutet, dass eine mit sich selbst multiplizierte Zahl dem Quadrat der Zahl entspricht, d. h. x*x=n, dann ist x die Quadratwurzel von n. Zur Berechnung der Quadratwurzel kann im Programm die Funktion sqrt() verwendet werden. 2. So verwenden Sie die Funktion sqrt() in Python, sq

Python-Programmierpraxis: Verwendung der Baidu Map API zum Generieren statischer Kartenfunktionen Python-Programmierpraxis: Verwendung der Baidu Map API zum Generieren statischer Kartenfunktionen Jul 30, 2023 pm 09:05 PM

Python-Programmierpraxis: Verwendung der Baidu Map API zum Generieren statischer Kartenfunktionen Einführung: In der modernen Gesellschaft sind Karten zu einem unverzichtbaren Bestandteil des Lebens der Menschen geworden. Bei der Arbeit mit Karten benötigen wir häufig eine statische Karte eines bestimmten Bereichs zur Anzeige auf einer Webseite, einer mobilen App oder einem Bericht. In diesem Artikel wird die Verwendung der Programmiersprache Python und der Baidu Map API zum Generieren statischer Karten vorgestellt und relevante Codebeispiele bereitgestellt. 1. Vorbereitungsarbeiten Um die Funktion der Generierung statischer Karten mithilfe der Baidu Map API zu realisieren, I

Python-Programmierung zur Analyse der Koordinatenkonvertierungsfunktion in der Baidu Map API-Dokumentation Python-Programmierung zur Analyse der Koordinatenkonvertierungsfunktion in der Baidu Map API-Dokumentation Aug 01, 2023 am 08:57 AM

Python-Programmierung zur Analyse der Koordinatenkonvertierungsfunktion in der Baidu Map API-Dokumentation Einführung: Mit der rasanten Entwicklung des Internets ist die Kartenpositionierungsfunktion zu einem unverzichtbaren Bestandteil des Lebens moderner Menschen geworden. Als einer der beliebtesten Kartendienste in China stellt Baidu Maps eine Reihe von APIs für Entwickler zur Verfügung. In diesem Artikel wird die Python-Programmierung verwendet, um die Koordinatenkonvertierungsfunktion in der Baidu Map API-Dokumentation zu analysieren und entsprechende Codebeispiele zu geben. 1. Einleitung Bei der Entwicklung kommt es manchmal zu Problemen bei der Koordinatenkonvertierung. Baidu-Karte AP

Wie schreibe ich einen PCA-Hauptkomponentenanalysealgorithmus in Python? Wie schreibe ich einen PCA-Hauptkomponentenanalysealgorithmus in Python? Sep 20, 2023 am 10:34 AM

Wie schreibe ich einen PCA-Hauptkomponentenanalysealgorithmus in Python? PCA (Principal Component Analysis) ist ein häufig verwendeter unbeaufsichtigter Lernalgorithmus, der dazu dient, die Dimensionalität von Daten zu reduzieren, um Daten besser zu verstehen und zu analysieren. In diesem Artikel lernen wir, wie man den PCA-Hauptkomponentenanalysealgorithmus mit Python schreibt und stellen spezifische Codebeispiele bereit. Die PCA-Schritte sind wie folgt: Standardisieren Sie die Daten: Setzen Sie den Mittelwert jedes Merkmals der Daten auf Null und passen Sie die Varianz an den gleichen Bereich an, um sicherzustellen

See all articles