Techniques de prétraitement de texte en Python
Python est un langage de programmation puissant largement utilisé dans la science des données, l'apprentissage automatique, le traitement du langage naturel et d'autres domaines. Dans ces domaines, le prétraitement du texte est une étape très critique, qui peut réduire le bruit des données textuelles et améliorer la précision du modèle. Dans cet article, nous présenterons quelques techniques courantes de prétraitement de texte en Python.
1. Lire des données texte
En Python, vous pouvez utiliser la fonction open() pour lire des fichiers texte.
with open('example.txt', 'r') as f: text = f.read()
Dans cet exemple, nous ouvrons un fichier texte nommé "example.txt" et lisons son contenu. Le contenu de ce fichier texte sera stocké dans une variable chaîne nommée "text". En plus d'utiliser la fonction read(), nous pouvons également utiliser la fonction readlines() pour stocker le contenu d'un fichier texte dans une liste.
with open('example.txt', 'r') as f: lines = f.readlines()
Dans cet exemple, le contenu de "example.txt" sera stocké sous forme de liste, chaque ligne étant un élément de la liste. Ceci est utile lorsque vous travaillez avec des données textuelles à grande échelle, car plusieurs lignes de données peuvent être lues et traitées simultanément.
2. Supprimer les signes de ponctuation et les chiffres
Lors du prétraitement du texte, nous devons généralement supprimer les signes de ponctuation et les chiffres du texte. Le module re en Python fournit une fonctionnalité d'expression régulière très pratique pour gérer ces tâches.
import re text = "This is an example sentence! 12345." text = re.sub(r'[^ws]', '', text) # Remove punctuation text = re.sub(r'd+', '', text) # Remove numbers
Dans cet exemple, nous utilisons d'abord la fonction re.sub() et l'expression régulière "1" pour supprimer tous les signes de ponctuation et les espaces. Ensuite, nous utilisons la fonction re.sub() et l'expression régulière "d+" pour supprimer tous les nombres du texte. Enfin, nous stockons le texte traité dans la variable chaîne "text".
3. Segmentation de mots
La segmentation de mots fait référence à la division du texte en mots séparés. La bibliothèque nltk et la bibliothèque spaCy en Python fournissent toutes deux des outils de segmentation de mots très utiles. Ici, nous prenons la bibliothèque nltk comme exemple.
import nltk nltk.download('punkt') text = "This is an example sentence." words = nltk.word_tokenize(text)
Dans cet exemple, nous avons d'abord téléchargé le package punkt de la bibliothèque nltk, qui est une boîte à outils de segmentation de mots très populaire dans la bibliothèque nltk. Nous utilisons ensuite la fonction nltk.word_tokenize() pour diviser le texte en mots et stocker les résultats dans la liste « mots ».
4. Supprimer les mots vides
Dans le traitement de texte, il est souvent nécessaire de supprimer les mots vides courants : "est", "a", "this", etc. La bibliothèque nltk et la bibliothèque spaCy en Python fournissent également de bonnes listes de mots vides. Vous trouverez ci-dessous un exemple utilisant la bibliothèque nltk.
import nltk nltk.download('stopwords') from nltk.corpus import stopwords text = "This is an example sentence." words = nltk.word_tokenize(text) filtered_words = [word for word in words if word.lower() not in stopwords.words('english')]
Dans cet exemple, nous avons d'abord téléchargé le package de mots vides de la bibliothèque nltk et en avons importé la liste de mots vides en anglais. Nous utilisons ensuite des compréhensions de liste pour supprimer les mots vides du texte de la liste de mots. Enfin, nous obtenons une liste de mots "filtered_words" qui n'inclut pas les mots vides.
5. Stemming
Le stemming est le processus de normalisation de différentes formes de mots (telles que le temps, le singulier et le pluriel, etc.) sous la même forme. La bibliothèque nltk et la bibliothèque spaCy en Python fournissent des outils de recherche de radicaux très utiles. Ici, nous prenons également la bibliothèque nltk comme exemple.
import nltk from nltk.stem import PorterStemmer stemmer = PorterStemmer() text = "This is an example sentence." words = nltk.word_tokenize(text) stemmed_words = [stemmer.stem(word) for word in words]
Dans cet exemple, nous avons d'abord importé la classe PorterStemmer de la bibliothèque nltk. Ensuite, nous instancions un objet PorterStemmer. Ensuite, nous utilisons des compréhensions de liste pour extraire les radicaux du texte et stocker les résultats dans la liste « stemmed_words ».
6. Marquage des parties du discours
Le balisage des parties du discours est le processus de marquage des mots dans le texte dans leurs parties du discours (telles que les noms, les verbes, les adjectifs, etc.). La bibliothèque nltk et la bibliothèque spaCy en Python fournissent également des outils de balisage de parties du discours très utiles. Ici, nous prenons également la bibliothèque nltk comme exemple.
import nltk nltk.download('averaged_perceptron_tagger') text = "This is an example sentence." words = nltk.word_tokenize(text) tagged_words = nltk.pos_tag(words)
Dans cet exemple, nous avons d'abord téléchargé le package Averaged_perceptron_tagger de la bibliothèque nltk. Nous utilisons ensuite la fonction nltk.word_tokenize() pour diviser le texte en mots et stocker les résultats dans la liste « mots ». Ensuite, nous utilisons la fonction nltk.pos_tag() pour baliser les mots avec leurs parties du discours et stocker les résultats dans la liste « tagged_words ».
Résumé
Cet article présente certaines techniques de prétraitement de texte couramment utilisées en Python, notamment la lecture de données textuelles, la suppression des signes de ponctuation et des chiffres, la segmentation des mots, la suppression des mots vides, la radicalisation et le marquage de parties du discours, etc. Ces techniques sont très utiles et largement utilisées en traitement de texte. Dans les applications pratiques, nous pouvons choisir des techniques appropriées de prétraitement de texte en fonction de nos besoins afin d'améliorer l'exactitude et l'effet de nos données.
- ws ↩
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Les assertions en Python sont un outil utile permettant aux programmeurs de déboguer leur code. Il est utilisé pour vérifier que l'état interne du programme répond aux attentes et générer une erreur d'assertion (AssertionError) lorsque ces conditions sont fausses. Pendant le processus de développement, des assertions sont utilisées lors des tests et du débogage pour vérifier si l'état du code correspond aux résultats attendus. Cet article abordera les causes, les solutions et comment utiliser correctement les assertions dans votre code. Cause de l'erreur d'assertion Erreur d'assertion réussie

PythonforNLP : Comment traiter le texte des fichiers PDF à l'aide de la bibliothèque PDFMiner ? Introduction : PDF (Portable Document Format) est un format utilisé pour stocker des documents, généralement utilisé pour le partage et la distribution de documents électroniques. Dans le domaine du traitement du langage naturel (NLP), nous avons souvent besoin d'extraire du texte à partir de fichiers PDF pour l'analyse et le traitement de texte. Python fournit de nombreuses bibliothèques pour traiter les fichiers PDF, parmi lesquelles PDFMiner est un puissant

Présentation de la façon de développer un scanner de vulnérabilités via Python Dans l'environnement actuel de menaces croissantes pour la sécurité Internet, les scanners de vulnérabilités sont devenus un outil important pour protéger la sécurité du réseau. Python est un langage de programmation populaire, concis, facile à lire et puissant, adapté au développement de divers outils pratiques. Cet article explique comment utiliser Python pour développer un scanner de vulnérabilités afin de fournir une protection en temps réel à votre réseau. Étape 1 : Déterminer les cibles d'analyse Avant de développer un scanner de vulnérabilités, vous devez déterminer les cibles que vous souhaitez analyser. Il peut s'agir de votre propre réseau ou de tout ce que vous êtes autorisé à tester.

Comment utiliser Python pour écrire et exécuter des scripts sous Linux Dans le système d'exploitation Linux, nous pouvons utiliser Python pour écrire et exécuter divers scripts. Python est un langage de programmation concis et puissant qui fournit une multitude de bibliothèques et d'outils pour rendre la création de scripts plus facile et plus efficace. Ci-dessous, nous présenterons les étapes de base de l'utilisation de Python pour l'écriture et l'exécution de scripts sous Linux, et fournirons quelques exemples de code spécifiques pour vous aider à mieux le comprendre et l'utiliser. Installer Python

Exemples d'utilisation et de code de la fonction sqrt() en Python 1. Fonction et introduction de la fonction sqrt() Dans la programmation Python, la fonction sqrt() est une fonction du module mathématique, et sa fonction est de calculer la racine carrée de un numéro. La racine carrée signifie qu'un nombre multiplié par lui-même est égal au carré du nombre, c'est-à-dire x*x=n, alors x est la racine carrée de n. La fonction sqrt() peut être utilisée dans le programme pour calculer la racine carrée. 2. Comment utiliser la fonction sqrt() en Python, sq

Pratique de programmation Python : Comment utiliser l'API Baidu Map pour générer des fonctions de carte statique Introduction : Dans la société moderne, les cartes sont devenues un élément indispensable de la vie des gens. Lorsque nous travaillons avec des cartes, nous avons souvent besoin d'obtenir une carte statique d'une zone spécifique à afficher sur une page Web, une application mobile ou un rapport. Cet article explique comment utiliser le langage de programmation Python et l'API Baidu Map pour générer des cartes statiques et fournit des exemples de code pertinents. 1. Travail de préparation Pour réaliser la fonction de génération de cartes statiques à l'aide de l'API Baidu Map, je

Programmation Python pour analyser la fonction de conversion de coordonnées dans le document Baidu Map API Introduction : Avec le développement rapide d'Internet, la fonction de positionnement cartographique est devenue un élément indispensable de la vie des gens modernes. En tant que l'un des services de cartographie les plus populaires en Chine, Baidu Maps fournit une série d'API que les développeurs peuvent utiliser. Cet article utilisera la programmation Python pour analyser la fonction de conversion de coordonnées dans la documentation de l'API Baidu Map et donnera des exemples de code correspondants. 1. Introduction En développement, nous sommes parfois confrontés à des problèmes de conversion de coordonnées. Carte Baidu AP

Comment écrire un algorithme d'analyse des composantes principales PCA en Python ? PCA (PrincipalComponentAnalysis) est un algorithme d'apprentissage non supervisé couramment utilisé pour réduire la dimensionnalité des données afin de mieux comprendre et analyser les données. Dans cet article, nous apprendrons comment écrire l'algorithme d'analyse des composantes principales PCA à l'aide de Python et fournirons des exemples de code spécifiques. Les étapes de l'ACP sont les suivantes : Standardiser les données : mettre à zéro la moyenne de chaque caractéristique des données et ajuster la variance sur la même plage pour garantir
