Le pivotement, également connu sous le nom de transposition, est une opération courante dans la transformation de données où les lignes et les colonnes sont permutées. Cela peut être utile pour des tâches telles que la refonte des données dans un format plus approprié ou la création de rapports résumant les données sur plusieurs dimensions. En Python, pandas propose plusieurs méthodes pour faire pivoter un DataFrame, chacune avec ses propres forces et limites.
Pour le pivotement de base, vous pouvez utiliser les méthodes suivantes :
pandas.pivot_table : Cette méthode fournit une interface flexible pour faire pivoter les données en spécifiant les colonnes à utiliser comme lignes, colonnes et valeurs. Prend en charge diverses fonctions d'agrégation comme la moyenne, la somme, le nombre, etc.
pandas.DataFrame.groupby pandas.unstack : Regroupez les données par les colonnes souhaitées à l'aide de groupby, puis dépilez le MultiIndex résultant à l'aide dépiler pour créer le DataFrame pivoté.
Pour des opérations de pivotement plus complexes, vous pouvez utiliser les méthodes suivantes :
pandas.DataFrame.set_index pandas.unstack :Semblable à groupby mais plus efficace si vous êtes pivotant sur un ensemble unique de lignes et columns.
pandas.DataFrame.pivot : Une version plus concise de pivot_table mais avec des fonctionnalités limitées.
pandas. crosstab : Utile pour créer un tableau de contingence (tabulation croisée), un type de pivot qui agrège les données sur deux variables catégorielles.
pandas.factorize numpy.bincount : Une technique plus avancée qui peut être plus rapide pour certaines opérations. Utilise la factorisation pour convertir les valeurs catégorielles en entiers uniques, puis utilise bincount pour compter les occurrences.
pandas.get_dummies pandas.DataFrame.dot : Une manière créative d'effectuer des tableaux croisés à l'aide de variables factices .
Voici quelques exemples d'utilisation de ceux-ci méthodes :
# Import pandas import pandas as pd # Create a sample DataFrame df = pd.DataFrame({ "key": ["a", "b", "c", "a", "b"], "row": [1, 2, 3, 4, 5], "col": ["col1", "col2", "col3", "col1", "col2"], "val": [10, 20, 30, 40, 50] }) # Pivot using pivot_table pivoted_df = pd.pivot_table( df, index="row", columns="col", values="val", aggfunc='mean', fill_value=0 ) # Pivot using groupby and unstack pivoted_df = df.groupby(['row', 'col'])['val'].mean().unstack(fill_value=0)
Pour aplatir le multi-index du DataFrame pivoté, vous pouvez utiliser différentes approches selon les types de colonnes :
Si les colonnes sont des chaînes :
pivoted_df.columns = pivoted_df.columns.map('|'.join)
Si les colonnes sont tuples :
pivoted_df.columns = pivoted_df.columns.map('{0[0]}|{0[1]}'.format)
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!