Obtenir une liste de tous les éléments en double dans Pandas
Dans Pandas, la méthode dupliquée peut être utilisée pour identifier les lignes en double dans un ensemble de données basé sur sur les colonnes spécifiées. Cependant, par défaut, il renvoie uniquement la première occurrence de chaque doublon. Pour obtenir une liste complète, considérez les approches suivantes :
Méthode n°1 : Filtrage avec la méthode isin
Cette méthode comporte deux étapes :
Extrayez les identifiants uniques des lignes en double en utilisant :
<code class="python">ids = df[df.duplicated(cols='ID')]['ID']</code>
Utilisez la méthode isin pour filtrer toutes les lignes où l'identifiant correspond à l'un des identifiants en double :
<code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>
Méthode n°2 : Regroupement avec groupby
Cette approche utilise l'opération groupby pour regrouper les lignes par colonne ID et filtrer groupes avec plus d'une ligne :
<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>
En utilisant ces méthodes, vous pouvez récupérer efficacement une liste complète des éléments en double dans votre DataFrame pandas.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!