Ce qui suit est un exemple de déduplication Python de données en double multi-attributs. Il a une bonne valeur de référence et j'espère qu'il sera utile à tout le monde. Jetons un coup d'oeil ensemble
Les étapes pour dédupliquer les données en double dans le module pandas en python :
1) Utiliser la méthode dupliquée dans DataFrame Renvoie une série booléenne pour indiquer s'il y a des lignes en double dans chaque ligne. Aucune ligne en double n'est affichée comme FALSE et les lignes en double sont affichées comme TRUE
2) Utilisez ensuite la méthode drop_duplicates dans le DataFrame ; DataFrame supprimé avec des lignes répétées.
Remarque :
Si aucun paramètre n'est défini dans la méthode dupliquée et la méthode drop_duplicates, ces deux méthodes jugeront toutes par défaut If These. deux méthodes ajoutent des noms d'attributs spécifiés (ou des noms de colonnes), par exemple : frame.drop_duplicates(['state']), puis spécifient certaines colonnes (colonnes d'état) pour déterminer les doublons.
Des exemples spécifiques sont les suivants :
>>> import pandas as pd >>> data={'state':[1,1,2,2],'pop':['a','b','c','d']} >>> frame=pd.DataFrame(data) >>> frame pop state 0 a 1 1 b 1 2 c 2 3 d 2 >>> IsDuplicated=frame.duplicated() >>> print IsDuplicated 0 False 1 False 2 False 3 False dtype: bool >>> frame=frame.drop_duplicates(['state']) >>> frame pop state 0 a 1 2 c 2 >>> IsDuplicated=frame.duplicated(['state']) >>> print IsDuplicated 0 False 2 False dtype: bool >>>
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!