Comment supprimer les colonnes en double dans une trame de données Pandas ?-Tutoriel Python-php.cn

Comment supprimer les colonnes en double dans une trame de données Pandas ?

DDD

Libérer： 2024-11-01 14:08:02

original

392 Les gens l'ont consulté

How to Remove Duplicate Columns in a Pandas Dataframe?

Supprimer les colonnes en double dans une trame de données Pandas

Lorsque vous traitez des trames de données contenant des colonnes en double, il devient nécessaire d'éliminer ces redondances pour des données efficaces analyse. Cet article fournit une solution complète pour supprimer les colonnes en double dans Pandas, abordant tous les aspects du problème.

Noms de colonnes en double

Pour supprimer des colonnes basées uniquement sur des noms en double, une solution simple est :

<code class="python">df = df.loc[:,~df.columns.duplicated()].copy()</code>

Copier après la connexion

Cette ligne vérifie les noms de colonnes en double et ne conserve que ceux qui sont uniques.

Valeurs de colonnes dupliquées

Si l'objectif est de supprimer des colonnes en fonction de valeurs en double, une approche différente est nécessaire sans transposer le dataframe :

<code class="python">df = df.loc[:,~df.apply(lambda x: x.duplicated(),axis=1).all()].copy()</code>

Copier après la connexion

Cette méthode vérifie les valeurs en double dans chaque colonne et élimine les colonnes où toutes les valeurs sont des doublons.

Index dupliqués

Pour supprimer les index dupliqués, suivez une approche similaire :

<code class="python">df = df.loc[~df.index.duplicated(),:].copy()</code>

Copier après la connexion

Notes supplémentaires

Les solutions fournies supposent que la trame de données est déjà chargée dans une variable nommée df.
~df.columns.duplicated() et ~df.index.duplicated() renvoient des tableaux booléens indiquant quelles colonnes ou les index sont des doublons.
La fonction all() dans ~df.apply(lambda x: x.duplicate(),axis=1).all() vérifie si toutes les valeurs d'une colonne sont des doublons.
La méthode .copy() est utilisée pour créer un nouveau dataframe avec les modifications, évitant ainsi tout problème de modification du dataframe existant.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!