Le regroupement consiste à diviser une colonne de données continue en intervalles discrets pour analyser la distribution des données. Pour regrouper une colonne avec des valeurs numériques à l'aide de Pandas, nous pouvons explorer différentes méthodes.
Pandas fournit la fonction de coupe pour effectuer le regroupement. Il faut la série à regrouper et une liste de bords de bin comme arguments. Par défaut, il renvoie une colonne catégorielle avec des étiquettes de casier. Par exemple :
bins = [0, 1, 5, 10, 25, 50, 100] df['binned'] = pd.cut(df['percentage'], bins)
La fonction searchsorted de NumPy peut également être utilisée pour le regroupement. Il renvoie l'index du bac où se trouve chaque valeur de la série. Les valeurs résultantes peuvent ensuite être utilisées pour créer une catégorie regroupée :
df['binned'] = np.searchsorted(bins, df['percentage'].values)
Une fois la colonne regroupée créée, nous pouvons calculer le nombre de valeurs pour déterminer le nombre d'observations dans chaque bac. Ceci peut être réalisé en utilisant soit value_counts, soit groupby et global size :
s = pd.cut(df['percentage'], bins=bins).value_counts()
s = df.groupby(pd.cut(df['percentage'], bins=bins)).size()
En utilisant ces techniques, nous pouvons efficacement regrouper les colonnes de données numériques dans Pandas pour obtenir un aperçu de leur distribution.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!