Récupération de valeurs de lignes distinctes à partir d'un DataFrame
Dans cette situation, nous visons à extraire des lignes d'un DataFrame en fonction de valeurs uniques dans un particulier colonne, notons-la COL2.
Pour accomplir cette tâche, nous introduisons la fonction drop_duplicates. Cela nous permet d'éliminer les lignes en double en spécifiant les colonnes dans lesquelles nous voulons vérifier les valeurs en double.
Préserver la première occurrence :
Par exemple, si nous voulons conserver uniquement la première occurrence de chaque valeur COL2 distincte, nous pouvons utiliser :
<code class="python">df = df.drop_duplicates('COL2')</code>
Alternativement, nous pouvons écrire :
<code class="python">df = df.drop_duplicates('COL2', keep='first')</code>
Ceci conserve la première ligne pour chaque valeur unique dans COL2.
Maintien de la dernière occurrence :
Si nous souhaitons plutôt conserver la dernière occurrence de valeurs distinctes, nous modifions le paramètre keep en 'last' :
<code class="python">df = df.drop_duplicates('COL2', keep='last')</code>
Suppression de tous les doublons :
Pour supprimer toutes les lignes en double, y compris celles avec des valeurs identiques dans COL2, nous définissons keep sur False :
<code class="python">df = df.drop_duplicates('COL2', keep=False)</code>
En suivant ces techniques, vous pouvez éliminer efficacement les lignes en double en fonction de valeurs distinctes dans la colonne spécifiée, garantissant ainsi que votre DataFrame ne contient que des données uniques.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!