Maison > développement back-end > Tutoriel Python > Comment identifier toutes les lignes en double dans un DataFrame Pandas ?

Comment identifier toutes les lignes en double dans un DataFrame Pandas ?

Barbara Streisand
Libérer: 2024-10-25 15:15:02
original
1080 Les gens l'ont consulté

How to Identify All Duplicate Rows in a Pandas DataFrame?

Comment puis-je obtenir une liste de tous les éléments en double à l'aide de Pandas en Python ?

Problème :

Votre Pandas DataFrame contient des lignes en double, mais l'utilisation de la méthode duplicated() ne renvoie que la première instance en double. Vous désirez une liste complète de toutes les occurrences de lignes dupliquées pour une comparaison manuelle.

Solution 1 : Isoler les lignes avec des ID en double

  1. Importer les pandas en tant que pd.
  2. Lisez vos données dans un DataFrame df.
  3. Extrayez la colonne ID dans une série d'identifiants distincts.
  4. Filtrez df selon que la valeur de l'ID correspond à l'un des ID en double dans ids[ids.duplicate()] :
<code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>
Copier après la connexion

Bien que cette méthode récupère efficacement toutes les lignes en double, elle crée des lignes d'ID en double dans la sortie.

Solution 2 : Regrouper par ID et filtrer les doublons

  1. Utilisez groupby("ID") sur df pour regrouper les lignes en fonction de leurs valeurs d'ID.
  2. Filtrez les groupes résultants pour ne conserver que ceux avec plus d'une ligne :
<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>
Copier après la connexion

Cette approche donne une sortie rationalisée sans lignes d'ID redondantes.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal