Outil d'analyse de données : Maîtrisez les compétences de modification des noms de colonnes dans Pandas
Introduction :
Pendant le processus d'analyse des données, nous rencontrons souvent des situations où nous devons modifier les noms de colonnes de l'ensemble de données. Pandas est une bibliothèque de traitement de données couramment utilisée en Python, fournissant des fonctions flexibles et puissantes pour traiter et analyser les données. Aujourd'hui, nous allons nous concentrer sur les techniques de modification des noms de colonnes dans Pandas et les démontrer avec des exemples de code spécifiques.
1. Afficher les noms de colonnes existants
Tout d'abord, nous devons comprendre les noms de colonnes de l'ensemble de données actuel. Dans Pandas, utilisez df.columns
pour afficher les noms de colonnes du DataFrame. Par exemple, nous avons le bloc de données df suivant : df.columns
可以查看数据框(DataFrame)的列名。例如,我们有如下数据框df:
import pandas as pd
data = {'A': [1, 2, 3],
'B': [4, 5, 6],
'C': [7, 8, 9]}
df = pd.DataFrame(data)
Copier après la connexion
我们可以使用df.columns
print(df.columns)
Copier après la connexion
Copier après la connexion
Copier après la connexion
Copier après la connexion
Nous pouvons utiliser
df.columns
pour afficher les noms de colonnes de df :
Index(['A', 'B', 'C'], dtype='object')
Copier après la connexion
Les résultats d'exécution sont les suivants :
df.columns = ['New_A', 'B', 'C']
Copier après la connexion
2. Modifier les noms de colonnes
Modifier directement les noms de colonnes
Dans Pandas, nous pouvons modifier directement les noms de colonnes en attribuant des valeurs. Par exemple, nous voulons modifier le nom de la colonne 'A' en 'New_A' :
print(df.columns)
Copier après la connexion
Copier après la connexion
Copier après la connexion
Copier après la connexion
Après l'exécution, vérifiez à nouveau le nom de la colonne de df :
Index(['New_A', 'B', 'C'], dtype='object')
Copier après la connexion
Les résultats d'exécution sont les suivants :
df = df.rename(columns={'B': 'New_B'})
Copier après la connexion
De cette façon, nous peut modifier tout ce qui est nécessaire. Les noms de colonnes sont tous modifiés en même temps.
Utilisez la fonction rename() pour modifier les noms de colonnes
En plus d'attribuer directement des valeurs pour modifier les noms de colonnes, Pandas fournit également la fonction rename() pour modifier les noms de colonnes. Cette méthode est plus flexible et nous pouvons modifier sélectivement certains noms de colonnes. Par exemple, si nous changeons le nom de la colonne 'B' en 'New_B', nous pouvons utiliser le code suivant :
print(df.columns)
Copier après la connexion
Copier après la connexion
Copier après la connexion
Copier après la connexion
Après l'exécution, vérifiez à nouveau le nom de la colonne de df :
Index(['New_A', 'New_B', 'C'], dtype='object')
Copier après la connexion
Le résultat de l'exécution est le suivant :
df.columns = df.columns.map(lambda x: 'New_' + x)
Copier après la connexion
De cette façon, nous modifions uniquement le nom de la colonne spécifié sans affecter le nom des autres noms de colonnes.
Utilisez la fonction map() pour modifier une partie du nom de la colonne
Parfois, nous pouvons avoir besoin de modifier partiellement le nom de la colonne, par exemple en ajoutant un préfixe devant le nom de la colonne. Utilisez la fonction map() pour opérer sur des noms de colonnes partiels. Par exemple, si nous ajoutons le préfixe 'New_' devant le nom de la colonne, nous pouvons utiliser le code suivant :
print(df.columns)
Copier après la connexion
Copier après la connexion
Copier après la connexion
Copier après la connexion
Après l'exécution, vérifiez à nouveau le nom de la colonne de df :
Index(['New_New_A', 'New_New_B', 'New_C'], dtype='object')
Copier après la connexion
Le résultat de l'exécution est le suivant :
rrreee
De cette façon, nous pouvons comparer les colonnes. Apporter des modifications partielles flexibles au nom.
3. Scénarios d'application
Maîtriser les compétences de modification des noms de colonnes dans Pandas est très important pour les tâches d'analyse de données. Voici des exemples de plusieurs scénarios d'application :
- Nettoyage des données : pendant le processus de nettoyage des données, il est souvent nécessaire de standardiser les noms de colonnes et de modifier les noms de colonnes non standard en normes de dénomination unifiées.
- Fusion de données : lors de l'utilisation de la fonction merge() ou join() pour fusionner des données, il est souvent nécessaire de modifier les noms des colonnes fusionnées pour distinguer les colonnes de différentes sources de données.
- Exportation de données : lors de l'exportation de données vers des fichiers Excel ou CSV, nous pouvons modifier les noms des colonnes pour les rendre plus descriptifs et améliorer la lisibilité du fichier.
Résumé :
Grâce à l'introduction de cet article, nous avons découvert les techniques de modification des noms de colonnes dans Pandas et les avons démontrées avec des exemples de code spécifiques. La maîtrise de ces compétences peut nous aider à modifier les noms de colonnes de manière plus flexible pendant le processus d'analyse des données et à améliorer l'efficacité du traitement et de l'analyse des données. Dans le même temps, une dénomination raisonnable des colonnes contribue également à améliorer la lisibilité et la compréhensibilité des données et est très utile pour l'interprétation et l'affichage visuel des résultats de l'analyse des données. J'espère que cet article vous sera utile pour votre travail d'analyse de données, merci d'avoir lu ! 🎜
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!