Pandas : diviser un DataFrame en fonction des valeurs de colonne
Lorsque vous travaillez avec des DataFrames Pandas, il est nécessaire de diviser les données en sous-ensembles en fonction de valeurs de colonnes spécifiques. Un scénario courant consiste à diviser un DataFrame en fonction d’une valeur seuil. Voici comment y parvenir :
Création de masques booléens
La méthode la plus simple consiste à créer un masque booléen à l'aide d'opérateurs de comparaison. En appliquant le masque au DataFrame, vous pouvez créer deux DataFrames avec des données satisfaisant aux conditions définies par le masque.
Par exemple, pour diviser un DataFrame par une colonne nommée « Ventes » avec des valeurs de ventes inférieures et supérieures à ou égal à un seuil 's' spécifié :
<code class="python">import pandas as pd df = pd.DataFrame({'Sales':[10,20,30,40,50], 'A':[3,4,7,6,1]}) print(df) s = 30 # Boolean mask for rows where Sales >= s sales_ge_mask = df['Sales'] >= s # DataFrame with Sales >= s df1 = df[sales_ge_mask] print(df1) # Boolean mask for rows where Sales < s sales_lt_mask = df['Sales'] < s # DataFrame with Sales < s df2 = df[sales_lt_mask] print(df2)
Vous pouvez inverser le masque à l'aide de l'opérateur "~" pour diviser le DataFrame en fonction de la négation de la condition.
<code class="python"># Boolean mask for rows where Sales < s sales_lt_mask = df['Sales'] < s # DataFrame with Sales >= s df1 = df[~sales_lt_mask] print(df1) # DataFrame with Sales < s df2 = df[sales_lt_mask] print(df2)</code>
Cette méthode crée efficacement des sous-ensembles de DataFrames basés sur des conditions personnalisées.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!