Techniques de prétraitement de texte en Python-Tutoriel Python-php.cn

Maison

développement back-end

Tutoriel Python

Techniques de prétraitement de texte en Python

王林

Jun 11, 2023 am 08:56 AM

文本处理 python编程预处理技巧

Python est un langage de programmation puissant largement utilisé dans la science des données, l'apprentissage automatique, le traitement du langage naturel et d'autres domaines. Dans ces domaines, le prétraitement du texte est une étape très critique, qui peut réduire le bruit des données textuelles et améliorer la précision du modèle. Dans cet article, nous présenterons quelques techniques courantes de prétraitement de texte en Python.

1. Lire des données texte

En Python, vous pouvez utiliser la fonction open() pour lire des fichiers texte.

with open('example.txt', 'r') as f:
    text = f.read()

Copier après la connexion

Dans cet exemple, nous ouvrons un fichier texte nommé "example.txt" et lisons son contenu. Le contenu de ce fichier texte sera stocké dans une variable chaîne nommée "text". En plus d'utiliser la fonction read(), nous pouvons également utiliser la fonction readlines() pour stocker le contenu d'un fichier texte dans une liste.

with open('example.txt', 'r') as f:
    lines = f.readlines()

Copier après la connexion

Dans cet exemple, le contenu de "example.txt" sera stocké sous forme de liste, chaque ligne étant un élément de la liste. Ceci est utile lorsque vous travaillez avec des données textuelles à grande échelle, car plusieurs lignes de données peuvent être lues et traitées simultanément.

2. Supprimer les signes de ponctuation et les chiffres

Lors du prétraitement du texte, nous devons généralement supprimer les signes de ponctuation et les chiffres du texte. Le module re en Python fournit une fonctionnalité d'expression régulière très pratique pour gérer ces tâches.

import re

text = "This is an example sentence! 12345."
text = re.sub(r'[^ws]', '', text) # Remove punctuation
text = re.sub(r'd+', '', text) # Remove numbers

Copier après la connexion

Dans cet exemple, nous utilisons d'abord la fonction re.sub() et l'expression régulière "¹" pour supprimer tous les signes de ponctuation et les espaces. Ensuite, nous utilisons la fonction re.sub() et l'expression régulière "d+" pour supprimer tous les nombres du texte. Enfin, nous stockons le texte traité dans la variable chaîne "text".

3. Segmentation de mots

La segmentation de mots fait référence à la division du texte en mots séparés. La bibliothèque nltk et la bibliothèque spaCy en Python fournissent toutes deux des outils de segmentation de mots très utiles. Ici, nous prenons la bibliothèque nltk comme exemple.

import nltk

nltk.download('punkt')

text = "This is an example sentence."
words = nltk.word_tokenize(text)

Copier après la connexion

Dans cet exemple, nous avons d'abord téléchargé le package punkt de la bibliothèque nltk, qui est une boîte à outils de segmentation de mots très populaire dans la bibliothèque nltk. Nous utilisons ensuite la fonction nltk.word_tokenize() pour diviser le texte en mots et stocker les résultats dans la liste « mots ».

4. Supprimer les mots vides

Dans le traitement de texte, il est souvent nécessaire de supprimer les mots vides courants : "est", "a", "this", etc. La bibliothèque nltk et la bibliothèque spaCy en Python fournissent également de bonnes listes de mots vides. Vous trouverez ci-dessous un exemple utilisant la bibliothèque nltk.

import nltk

nltk.download('stopwords')

from nltk.corpus import stopwords

text = "This is an example sentence."
words = nltk.word_tokenize(text)

filtered_words = [word for word in words if word.lower() not in stopwords.words('english')]

Copier après la connexion

Dans cet exemple, nous avons d'abord téléchargé le package de mots vides de la bibliothèque nltk et en avons importé la liste de mots vides en anglais. Nous utilisons ensuite des compréhensions de liste pour supprimer les mots vides du texte de la liste de mots. Enfin, nous obtenons une liste de mots "filtered_words" qui n'inclut pas les mots vides.

5. Stemming

Le stemming est le processus de normalisation de différentes formes de mots (telles que le temps, le singulier et le pluriel, etc.) sous la même forme. La bibliothèque nltk et la bibliothèque spaCy en Python fournissent des outils de recherche de radicaux très utiles. Ici, nous prenons également la bibliothèque nltk comme exemple.

import nltk

from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

text = "This is an example sentence."
words = nltk.word_tokenize(text)

stemmed_words = [stemmer.stem(word) for word in words]

Copier après la connexion

Dans cet exemple, nous avons d'abord importé la classe PorterStemmer de la bibliothèque nltk. Ensuite, nous instancions un objet PorterStemmer. Ensuite, nous utilisons des compréhensions de liste pour extraire les radicaux du texte et stocker les résultats dans la liste « stemmed_words ».

6. Marquage des parties du discours

Le balisage des parties du discours est le processus de marquage des mots dans le texte dans leurs parties du discours (telles que les noms, les verbes, les adjectifs, etc.). La bibliothèque nltk et la bibliothèque spaCy en Python fournissent également des outils de balisage de parties du discours très utiles. Ici, nous prenons également la bibliothèque nltk comme exemple.

import nltk

nltk.download('averaged_perceptron_tagger')

text = "This is an example sentence."
words = nltk.word_tokenize(text)

tagged_words = nltk.pos_tag(words)

Copier après la connexion

Dans cet exemple, nous avons d'abord téléchargé le package Averaged_perceptron_tagger de la bibliothèque nltk. Nous utilisons ensuite la fonction nltk.word_tokenize() pour diviser le texte en mots et stocker les résultats dans la liste « mots ». Ensuite, nous utilisons la fonction nltk.pos_tag() pour baliser les mots avec leurs parties du discours et stocker les résultats dans la liste « tagged_words ».

Résumé

Cet article présente certaines techniques de prétraitement de texte couramment utilisées en Python, notamment la lecture de données textuelles, la suppression des signes de ponctuation et des chiffres, la segmentation des mots, la suppression des mots vides, la radicalisation et le marquage de parties du discours, etc. Ces techniques sont très utiles et largement utilisées en traitement de texte. Dans les applications pratiques, nous pouvons choisir des techniques appropriées de prétraitement de texte en fonction de nos besoins afin d'améliorer l'exactitude et l'effet de nos données.

ws ↩

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7478

Tutoriel CakePHP

1377

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

AssertionError : Comment résoudre les erreurs d'assertion Python ? Jun 25, 2023 pm 11:07 PM

Les assertions en Python sont un outil utile permettant aux programmeurs de déboguer leur code. Il est utilisé pour vérifier que l'état interne du programme répond aux attentes et générer une erreur d'assertion (AssertionError) lorsque ces conditions sont fausses. Pendant le processus de développement, des assertions sont utilisées lors des tests et du débogage pour vérifier si l'état du code correspond aux résultats attendus. Cet article abordera les causes, les solutions et comment utiliser correctement les assertions dans votre code. Cause de l'erreur d'assertion Erreur d'assertion réussie

Python pour le NLP : Comment traiter le texte des fichiers PDF à l'aide de la bibliothèque PDFMiner ? Sep 27, 2023 pm 02:34 PM

PythonforNLP : Comment traiter le texte des fichiers PDF à l'aide de la bibliothèque PDFMiner ? Introduction : PDF (Portable Document Format) est un format utilisé pour stocker des documents, généralement utilisé pour le partage et la distribution de documents électroniques. Dans le domaine du traitement du langage naturel (NLP), nous avons souvent besoin d'extraire du texte à partir de fichiers PDF pour l'analyse et le traitement de texte. Python fournit de nombreuses bibliothèques pour traiter les fichiers PDF, parmi lesquelles PDFMiner est un puissant

Comment développer un scanner de vulnérabilités en Python Jul 01, 2023 am 08:10 AM

Présentation de la façon de développer un scanner de vulnérabilités via Python Dans l'environnement actuel de menaces croissantes pour la sécurité Internet, les scanners de vulnérabilités sont devenus un outil important pour protéger la sécurité du réseau. Python est un langage de programmation populaire, concis, facile à lire et puissant, adapté au développement de divers outils pratiques. Cet article explique comment utiliser Python pour développer un scanner de vulnérabilités afin de fournir une protection en temps réel à votre réseau. Étape 1 : Déterminer les cibles d'analyse Avant de développer un scanner de vulnérabilités, vous devez déterminer les cibles que vous souhaitez analyser. Il peut s'agir de votre propre réseau ou de tout ce que vous êtes autorisé à tester.

Comment utiliser Python pour les scripts et l'exécution sous Linux Oct 05, 2023 am 11:45 AM

Comment utiliser Python pour écrire et exécuter des scripts sous Linux Dans le système d'exploitation Linux, nous pouvons utiliser Python pour écrire et exécuter divers scripts. Python est un langage de programmation concis et puissant qui fournit une multitude de bibliothèques et d'outils pour rendre la création de scripts plus facile et plus efficace. Ci-dessous, nous présenterons les étapes de base de l'utilisation de Python pour l'écriture et l'exécution de scripts sous Linux, et fournirons quelques exemples de code spécifiques pour vous aider à mieux le comprendre et l'utiliser. Installer Python

Utilisation de la fonction sqrt() en Python Feb 21, 2024 pm 03:09 PM

Exemples d'utilisation et de code de la fonction sqrt() en Python 1. Fonction et introduction de la fonction sqrt() Dans la programmation Python, la fonction sqrt() est une fonction du module mathématique, et sa fonction est de calculer la racine carrée de un numéro. La racine carrée signifie qu'un nombre multiplié par lui-même est égal au carré du nombre, c'est-à-dire x*x=n, alors x est la racine carrée de n. La fonction sqrt() peut être utilisée dans le programme pour calculer la racine carrée. 2. Comment utiliser la fonction sqrt() en Python, sq

Pratique de programmation Python : comment utiliser l'API Baidu Map pour générer des fonctions de carte statique Jul 30, 2023 pm 09:05 PM

Pratique de programmation Python : Comment utiliser l'API Baidu Map pour générer des fonctions de carte statique Introduction : Dans la société moderne, les cartes sont devenues un élément indispensable de la vie des gens. Lorsque nous travaillons avec des cartes, nous avons souvent besoin d'obtenir une carte statique d'une zone spécifique à afficher sur une page Web, une application mobile ou un rapport. Cet article explique comment utiliser le langage de programmation Python et l'API Baidu Map pour générer des cartes statiques et fournit des exemples de code pertinents. 1. Travail de préparation Pour réaliser la fonction de génération de cartes statiques à l'aide de l'API Baidu Map, je

Programmation Python pour analyser la fonction de conversion de coordonnées dans la documentation de l'API Baidu Map Aug 01, 2023 am 08:57 AM

Programmation Python pour analyser la fonction de conversion de coordonnées dans le document Baidu Map API Introduction : Avec le développement rapide d'Internet, la fonction de positionnement cartographique est devenue un élément indispensable de la vie des gens modernes. En tant que l'un des services de cartographie les plus populaires en Chine, Baidu Maps fournit une série d'API que les développeurs peuvent utiliser. Cet article utilisera la programmation Python pour analyser la fonction de conversion de coordonnées dans la documentation de l'API Baidu Map et donnera des exemples de code correspondants. 1. Introduction En développement, nous sommes parfois confrontés à des problèmes de conversion de coordonnées. Carte Baidu AP

Comment écrire un algorithme d'analyse des composantes principales PCA en Python ? Sep 20, 2023 am 10:34 AM

Comment écrire un algorithme d'analyse des composantes principales PCA en Python ? PCA (PrincipalComponentAnalysis) est un algorithme d'apprentissage non supervisé couramment utilisé pour réduire la dimensionnalité des données afin de mieux comprendre et analyser les données. Dans cet article, nous apprendrons comment écrire l'algorithme d'analyse des composantes principales PCA à l'aide de Python et fournirons des exemples de code spécifiques. Les étapes de l'ACP sont les suivantes : Standardiser les données : mettre à zéro la moyenne de chaque caractéristique des données et ajuster la variance sur la même plage pour garantir

See all articles