Binning beinhaltet das Unterteilen einer kontinuierlichen Datenspalte in diskrete Intervalle, um die Datenverteilung zu analysieren. Um eine Spalte mit numerischen Werten mithilfe von Pandas zu unterteilen, können wir verschiedene Methoden erkunden.
Pandas bietet die Cut-Funktion zum Durchführen der Unterteilung. Es benötigt die zu klassifizierende Reihe und eine Liste von Klassenkanten als Argumente. Standardmäßig wird eine kategoriale Spalte mit Bin-Beschriftungen zurückgegeben. Zum Beispiel:
bins = [0, 1, 5, 10, 25, 50, 100] df['binned'] = pd.cut(df['percentage'], bins)
NumPys searchsorted-Funktion kann auch zum Binning verwendet werden. Es gibt den Index des Bins zurück, in den jeder Wert in der Reihe fällt. Die resultierenden Werte können dann verwendet werden, um eine gruppierte Kategorie zu erstellen:
df['binned'] = np.searchsorted(bins, df['percentage'].values)
Sobald die gruppierte Spalte erstellt ist, können wir die Wertanzahl berechnen, um die Anzahl der Beobachtungen zu bestimmen jeder Behälter. Dies kann entweder mithilfe von value_counts oder groupby und Aggregatgröße erreicht werden:
s = pd.cut(df['percentage'], bins=bins).value_counts()
s = df.groupby(pd.cut(df['percentage'], bins=bins)).size()
Durch die Verwendung dieser Techniken können wir numerische Datenspalten in Pandas effektiv gruppieren, um Einblicke in ihre Verteilung zu gewinnen.
Das obige ist der detaillierte Inhalt vonWie kann ich eine Pandas-Spalte mithilfe von Pandas.cut und NumPy.searchsorted effektiv einteilen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!