Suppression des lignes en double sur plusieurs colonnes dans Python Pandas
La fonction pandas drop_duplicates élimine les lignes en double d'un DataFrame, un outil inestimable pour le nettoyage des données . Pour étendre cette fonctionnalité, on peut spécifier les colonnes pour vérifier l'unicité.
Par exemple, considérons le DataFrame suivant :
A B C 0 foo 0 A 1 foo 1 A 2 foo 1 B 3 bar 1 A
Supposons que vous souhaitiez supprimer les lignes qui ont des valeurs identiques dans les colonnes. «A» et «C». Dans ce cas, les lignes 0 et 1 seraient éliminées.
Auparavant, cette tâche nécessitait un filtrage manuel ou des opérations complexes. Cependant, avec la fonction drop_duplicates améliorée de pandas, c'est désormais un jeu d'enfant. L'introduction du paramètre keep vous permet de contrôler la façon dont les doublons sont gérés.
Pour supprimer les lignes qui correspondent à des colonnes spécifiques, utilisez le paramètre subset. En définissant keep sur False, vous demandez aux pandas d'éliminer toutes les lignes en double :
import pandas as pd df = pd.DataFrame({"A":["foo", "foo", "foo", "bar"], "B":[0,1,1,1], "C":["A","A","B","A"]}) df.drop_duplicates(subset=['A', 'C'], keep=False)
Sortie :
A B C 2 foo 1 B 3 bar 1 A
Comme vous pouvez le voir, les lignes 0 et 1 sont supprimées avec succès, ne laissant que les lignes qui sont uniques en fonction des valeurs des colonnes « A » et « C ».
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!