Supprimer les colonnes en double dans une trame de données Pandas
Lorsque vous traitez des trames de données contenant des colonnes en double, il devient nécessaire d'éliminer ces redondances pour des données efficaces analyse. Cet article fournit une solution complète pour supprimer les colonnes en double dans Pandas, abordant tous les aspects du problème.
Noms de colonnes en double
Pour supprimer des colonnes basées uniquement sur des noms en double, une solution simple est :
<code class="python">df = df.loc[:,~df.columns.duplicated()].copy()</code>
Cette ligne vérifie les noms de colonnes en double et ne conserve que ceux qui sont uniques.
Valeurs de colonnes dupliquées
Si l'objectif est de supprimer des colonnes en fonction de valeurs en double, une approche différente est nécessaire sans transposer le dataframe :
<code class="python">df = df.loc[:,~df.apply(lambda x: x.duplicated(),axis=1).all()].copy()</code>
Cette méthode vérifie les valeurs en double dans chaque colonne et élimine les colonnes où toutes les valeurs sont des doublons.
Index dupliqués
Pour supprimer les index dupliqués, suivez une approche similaire :
<code class="python">df = df.loc[~df.index.duplicated(),:].copy()</code>
Notes supplémentaires
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!