Andere Spalten während Groupby-Vorgängen beibehalten
Beim Durchführen einer Groupby-Operation für einen Pandas-Datenrahmen ist es häufig erforderlich, Spalten beizubehalten, die nicht vorhanden sind am Gruppierungs- oder Aggregationsprozess beteiligt sind. Standardmäßig werden diese anderen Spalten gelöscht, wenn der Vorgang abgeschlossen ist. Dies kann problematisch sein, wenn die beibehaltenen Spalten wertvolle Informationen enthalten.
Betrachten Sie den folgenden Datenrahmen:
item diff otherstuff 0 1 2 1 1 1 1 2 2 1 3 7 3 2 -1 0 4 2 1 3 5 2 4 9 6 2 -6 2 7 3 0 0 8 3 2 9
Wenn wir den Datenrahmen nach der Spalte „Element“ gruppieren und die finden würden Wenn Sie den Mindestwert der Spalte „diff“ angeben, würde der resultierende Datenrahmen wie folgt aussehen:
item diff 0 1 1 1 2 -6 2 3 0
Beachten Sie, dass die Spalte „otherstuff“ gelöscht wurde. Um diese Spalte beizubehalten, können wir die Methode idxmin() verwenden, um die Indizes der Elemente mit minimalem Diff abzurufen, und diese dann auswählen:
>>> df.loc[df.groupby("item")["diff"].idxmin()] item diff otherstuff 1 1 1 2 6 2 -6 2 7 3 0 0 [3 rows x 3 columns]
Eine andere Methode besteht darin, den Datenrahmen nach „diff“ zu sortieren "-Spalte und nehmen Sie dann das erste Element in jeder Artikelgruppe:
>>> df.sort_values("diff").groupby("item", as_index=False).first() item diff otherstuff 0 1 1 2 1 2 -6 2 2 3 0 0 [3 rows x 3 columns]
Beide Methoden führen zum gewünschten Ergebnis, während die Spalte „Andere Dinge“ beibehalten wird. Beachten Sie, dass die resultierenden Indizes unterschiedlich sein können, obwohl der Zeileninhalt derselbe ist.
Das obige ist der detaillierte Inhalt vonWie kann ich während eines Groupby-Vorgangs andere Spalten in einem Pandas DataFrame verwalten?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!