


Comment supprimer les doublons à l'aide des expressions régulières Python
Dans l'analyse et le prétraitement des données, il est souvent nécessaire de traiter des éléments en double dans les données. L'utilisation d'expressions régulières Python est un moyen efficace et flexible de supprimer les doublons. Dans cet article, nous expliquerons comment supprimer les doublons à l'aide des expressions régulières Python.
- Importer les bibliothèques nécessaires
Tout d'abord, nous devons importer les bibliothèques nécessaires, y compris re et pandas. Parmi elles, la bibliothèque re est une bibliothèque spécifiquement utilisée pour les opérations d'expressions régulières dans la bibliothèque standard Python tandis que la bibliothèque pandas est une bibliothèque essentielle dans le domaine de l'analyse des données et est utilisée pour traiter les données.
importer ré
importer des pandas en tant que pd
- Lire les données
Ensuite, nous devons lire les données à traiter. Ici, nous prenons le fichier csv comme exemple et utilisons la fonction read_csv de la bibliothèque pandas pour lire les données.
data = pd.read_csv('data.csv')
- Rechercher les doublons
Avant de supprimer les doublons, nous devons d'abord rechercher les doublons dans les données. Nous pouvons utiliser la fonction dupliquée de la bibliothèque pandas pour déterminer si chaque ligne de données est dupliquée avec la ligne de données précédente.
Déterminez si chaque ligne de données est dupliquée
is_duplicate = data.duplicate()
Afficher les éléments dupliqués
duplicated_data = data[is_duplicated]
print('Il y a %d doublons' % len(duplicated_data))
- Supprimer les doublons
Maintenant que nous avons l'index des doublons, nous pouvons utiliser des expressions régulières pour supprimer les doublons. Ici, nous pouvons utiliser la sous-fonction de la bibliothèque re, qui peut remplacer quelque chose dans une chaîne basée sur une expression régulière.
Par exemple, si nous voulons supprimer les espaces supplémentaires dans une chaîne, nous pouvons utiliser l'expression régulière suivante :
pattern = r's+'
replacement = ' '
où pattern est un modèle d'expression régulière qui correspond aux espaces supplémentaires, qui est représenté par s+ Correspond à un ou plusieurs espaces ; le remplacement est le contenu à remplacer Ici, nous remplaçons les espaces supplémentaires par un espace.
Ensuite, nous appliquons ce modèle d'expression régulière à chaque colonne des données, en supprimant les doublons.
Définissez le modèle d'expression régulière pour supprimer les doublons
pattern = r's+'
replacement = ' '
Parcourez chaque colonne dans les données et supprimez les doublons
pour la col dans data.columns:
data[col] = data[col].apply(lambda x: re.sub(pattern, replacement, str(x)))
Après avoir terminé la déduplication, nous peut utiliser la fonction dupliquée pour vérifier à nouveau s'il y a des doublons dans les données afin de garantir l'exactitude de l'opération de déduplication.
Vérifiez à nouveau s'il y a des doublons dans les données
is_duplicate = data.duplicate()
if is_duplicate.any():
print('数据中仍存在重复项')
else:
print('数据中不存在重复项')
- Écrivez les données traitées dans le fichier
Enfin, nous peut écrire les données traitées dans un fichier pour une utilisation ultérieure.
data.to_csv('processed_data.csv', index=False)
Résumé
L'expression régulière est un outil de traitement de texte très puissant qui peut être utilisé pour la correspondance, le remplacement et d'autres opérations de chaînes. Dans l'analyse et le prétraitement des données, l'utilisation d'expressions régulières pour supprimer les doublons est une méthode efficace et flexible. Cet article explique comment utiliser les expressions régulières Python pour supprimer les doublons. J'espère qu'il sera utile aux lecteurs.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Solution aux problèmes d'autorisation Lors de la visualisation de la version Python dans Linux Terminal Lorsque vous essayez d'afficher la version Python dans Linux Terminal, entrez Python ...

Lorsque vous utilisez la bibliothèque Pandas de Python, comment copier des colonnes entières entre deux frames de données avec différentes structures est un problème courant. Supposons que nous ayons deux dats ...

Pourquoi mon code ne peut-il pas faire renvoyer les données par l'API? En programmation, nous rencontrons souvent le problème du retour des valeurs nulles lorsque l'API appelle, ce qui n'est pas seulement déroutant ...

Utilisation alternative des annotations des paramètres Python Dans la programmation Python, les annotations des paramètres sont une fonction très utile qui peut aider les développeurs à mieux comprendre et utiliser les fonctions ...

Comment les scripts Python effacent-ils la sortie en position de curseur à un emplacement spécifique? Lors de l'écriture de scripts Python, il est courant d'effacer la sortie précédente à la position du curseur ...

Choix de la bibliothèque de développement d'applications de bureau multiplateforme Python De nombreux développeurs Python souhaitent développer des applications de bureau pouvant s'exécuter sur Windows et Linux Systems ...

Précision avec Python: Source de sablier Dessin graphique et vérification d'entrée Cet article résoudra le problème de définition variable rencontré par un novice Python dans le programme de dessin graphique de sablier. Code...

Conversion et statistiques de données: traitement efficace des grands ensembles de données Cet article introduira en détail comment convertir une liste de données contenant des informations sur le produit en une autre contenant ...
