Comment puis-je obtenir une liste de tous les éléments en double à l'aide de Pandas en Python ?
Problème :
Votre Pandas DataFrame contient des lignes en double, mais l'utilisation de la méthode duplicated() ne renvoie que la première instance en double. Vous désirez une liste complète de toutes les occurrences de lignes dupliquées pour une comparaison manuelle.
Solution 1 : Isoler les lignes avec des ID en double
<code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>
Bien que cette méthode récupère efficacement toutes les lignes en double, elle crée des lignes d'ID en double dans la sortie.
Solution 2 : Regrouper par ID et filtrer les doublons
<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>
Cette approche donne une sortie rationalisée sans lignes d'ID redondantes.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!