Table des matières
Déterminez si chaque ligne de données est dupliquée
Afficher les éléments dupliqués
Définissez le modèle d'expression régulière pour supprimer les doublons
Parcourez chaque colonne dans les données et supprimez les doublons
Vérifiez à nouveau s'il y a des doublons dans les données
Maison développement back-end Tutoriel Python Comment supprimer les doublons à l'aide des expressions régulières Python

Comment supprimer les doublons à l'aide des expressions régulières Python

Jun 22, 2023 pm 12:31 PM
python 正则表达式 去重

Dans l'analyse et le prétraitement des données, il est souvent nécessaire de traiter des éléments en double dans les données. L'utilisation d'expressions régulières Python est un moyen efficace et flexible de supprimer les doublons. Dans cet article, nous expliquerons comment supprimer les doublons à l'aide des expressions régulières Python.

  1. Importer les bibliothèques nécessaires

Tout d'abord, nous devons importer les bibliothèques nécessaires, y compris re et pandas. Parmi elles, la bibliothèque re est une bibliothèque spécifiquement utilisée pour les opérations d'expressions régulières dans la bibliothèque standard Python tandis que la bibliothèque pandas est une bibliothèque essentielle dans le domaine de l'analyse des données et est utilisée pour traiter les données.

importer ré
importer des pandas en tant que pd

  1. Lire les données

Ensuite, nous devons lire les données à traiter. Ici, nous prenons le fichier csv comme exemple et utilisons la fonction read_csv de la bibliothèque pandas pour lire les données.

data = pd.read_csv('data.csv')

  1. Rechercher les doublons

Avant de supprimer les doublons, nous devons d'abord rechercher les doublons dans les données. Nous pouvons utiliser la fonction dupliquée de la bibliothèque pandas pour déterminer si chaque ligne de données est dupliquée avec la ligne de données précédente.

Déterminez si chaque ligne de données est dupliquée

is_duplicate = data.duplicate()

Afficher les éléments dupliqués

duplicated_data = data[is_duplicated]
print('Il y a %d doublons' % len(duplicated_data))

  1. Supprimer les doublons

Maintenant que nous avons l'index des doublons, nous pouvons utiliser des expressions régulières pour supprimer les doublons. Ici, nous pouvons utiliser la sous-fonction de la bibliothèque re, qui peut remplacer quelque chose dans une chaîne basée sur une expression régulière.

Par exemple, si nous voulons supprimer les espaces supplémentaires dans une chaîne, nous pouvons utiliser l'expression régulière suivante :

pattern = r's+'
replacement = ' '

où pattern est un modèle d'expression régulière qui correspond aux espaces supplémentaires, qui est représenté par s+ Correspond à un ou plusieurs espaces ; le remplacement est le contenu à remplacer Ici, nous remplaçons les espaces supplémentaires par un espace.

Ensuite, nous appliquons ce modèle d'expression régulière à chaque colonne des données, en supprimant les doublons.

Définissez le modèle d'expression régulière pour supprimer les doublons

pattern = r's+'
replacement = ' '

Parcourez chaque colonne dans les données et supprimez les doublons

pour la col dans data.columns:

data[col] = data[col].apply(lambda x: re.sub(pattern, replacement, str(x)))
Copier après la connexion

Après avoir terminé la déduplication, nous peut utiliser la fonction dupliquée pour vérifier à nouveau s'il y a des doublons dans les données afin de garantir l'exactitude de l'opération de déduplication.

Vérifiez à nouveau s'il y a des doublons dans les données

is_duplicate = data.duplicate()
if is_duplicate.any():

print('数据中仍存在重复项')
Copier après la connexion

else:

print('数据中不存在重复项')
Copier après la connexion
  1. Écrivez les données traitées dans le fichier

Enfin, nous peut écrire les données traitées dans un fichier pour une utilisation ultérieure.

data.to_csv('processed_data.csv', index=False)

Résumé

L'expression régulière est un outil de traitement de texte très puissant qui peut être utilisé pour la correspondance, le remplacement et d'autres opérations de chaînes. Dans l'analyse et le prétraitement des données, l'utilisation d'expressions régulières pour supprimer les doublons est une méthode efficace et flexible. Cet article explique comment utiliser les expressions régulières Python pour supprimer les doublons. J'espère qu'il sera utile aux lecteurs.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment résoudre le problème des autorisations rencontré lors de la visualisation de la version Python dans le terminal Linux? Comment résoudre le problème des autorisations rencontré lors de la visualisation de la version Python dans le terminal Linux? Apr 01, 2025 pm 05:09 PM

Solution aux problèmes d'autorisation Lors de la visualisation de la version Python dans Linux Terminal Lorsque vous essayez d'afficher la version Python dans Linux Terminal, entrez Python ...

Comment copier efficacement la colonne entière d'une dataframe dans une autre dataframe avec différentes structures dans Python? Comment copier efficacement la colonne entière d'une dataframe dans une autre dataframe avec différentes structures dans Python? Apr 01, 2025 pm 11:15 PM

Lorsque vous utilisez la bibliothèque Pandas de Python, comment copier des colonnes entières entre deux frames de données avec différentes structures est un problème courant. Supposons que nous ayons deux dats ...

Pourquoi mon code ne peut-il pas faire renvoyer les données par l'API? Comment résoudre ce problème? Pourquoi mon code ne peut-il pas faire renvoyer les données par l'API? Comment résoudre ce problème? Apr 01, 2025 pm 08:09 PM

Pourquoi mon code ne peut-il pas faire renvoyer les données par l'API? En programmation, nous rencontrons souvent le problème du retour des valeurs nulles lorsque l'API appelle, ce qui n'est pas seulement déroutant ...

Les annotations des paramètres Python peuvent-elles utiliser des chaînes? Les annotations des paramètres Python peuvent-elles utiliser des chaînes? Apr 01, 2025 pm 08:39 PM

Utilisation alternative des annotations des paramètres Python Dans la programmation Python, les annotations des paramètres sont une fonction très utile qui peut aider les développeurs à mieux comprendre et utiliser les fonctions ...

Comment les scripts Python effacent-ils la sortie en position de curseur à un emplacement spécifique? Comment les scripts Python effacent-ils la sortie en position de curseur à un emplacement spécifique? Apr 01, 2025 pm 11:30 PM

Comment les scripts Python effacent-ils la sortie en position de curseur à un emplacement spécifique? Lors de l'écriture de scripts Python, il est courant d'effacer la sortie précédente à la position du curseur ...

Python multiplateform de bureau de bureau de bureau: quelle bibliothèque GUI est la meilleure pour vous? Python multiplateform de bureau de bureau de bureau: quelle bibliothèque GUI est la meilleure pour vous? Apr 01, 2025 pm 05:24 PM

Choix de la bibliothèque de développement d'applications de bureau multiplateforme Python De nombreux développeurs Python souhaitent développer des applications de bureau pouvant s'exécuter sur Windows et Linux Systems ...

Dessin graphique de sablier Python: comment éviter les erreurs variables non définies? Dessin graphique de sablier Python: comment éviter les erreurs variables non définies? Apr 01, 2025 pm 06:27 PM

Précision avec Python: Source de sablier Dessin graphique et vérification d'entrée Cet article résoudra le problème de définition variable rencontré par un novice Python dans le programme de dessin graphique de sablier. Code...

Comment compter et trier efficacement de grands ensembles de données de produit dans Python? Comment compter et trier efficacement de grands ensembles de données de produit dans Python? Apr 01, 2025 pm 08:03 PM

Conversion et statistiques de données: traitement efficace des grands ensembles de données Cet article introduira en détail comment convertir une liste de données contenant des informations sur le produit en une autre contenant ...

See all articles