Wie kann ich während eines Groupby-Vorgangs andere Spalten in einem Pandas DataFrame verwalten?-Python-Tutorial-php.cn

Wie kann ich während eines Groupby-Vorgangs andere Spalten in einem Pandas DataFrame verwalten?

Barbara Streisand

Freigeben： 2024-10-27 09:09:03

Original

807 Leute haben es durchsucht

How can I maintain other columns in a Pandas DataFrame during a groupby operation?

Andere Spalten während Groupby-Vorgängen beibehalten

Beim Durchführen einer Groupby-Operation für einen Pandas-Datenrahmen ist es häufig erforderlich, Spalten beizubehalten, die nicht vorhanden sind am Gruppierungs- oder Aggregationsprozess beteiligt sind. Standardmäßig werden diese anderen Spalten gelöscht, wenn der Vorgang abgeschlossen ist. Dies kann problematisch sein, wenn die beibehaltenen Spalten wertvolle Informationen enthalten.

Betrachten Sie den folgenden Datenrahmen:

    item    diff   otherstuff
   0   1       2            1
   1   1       1            2
   2   1       3            7
   3   2      -1            0
   4   2       1            3
   5   2       4            9
   6   2      -6            2
   7   3       0            0
   8   3       2            9

Nach dem Login kopieren

Wenn wir den Datenrahmen nach der Spalte „Element“ gruppieren und die finden würden Wenn Sie den Mindestwert der Spalte „diff“ angeben, würde der resultierende Datenrahmen wie folgt aussehen:

    item   diff
   0   1      1           
   1   2     -6           
   2   3      0

Nach dem Login kopieren

Beachten Sie, dass die Spalte „otherstuff“ gelöscht wurde. Um diese Spalte beizubehalten, können wir die Methode idxmin() verwenden, um die Indizes der Elemente mit minimalem Diff abzurufen, und diese dann auswählen:

>>> df.loc[df.groupby("item")["diff"].idxmin()]
   item  diff  otherstuff
1     1     1           2
6     2    -6           2
7     3     0           0

[3 rows x 3 columns]

Nach dem Login kopieren

Eine andere Methode besteht darin, den Datenrahmen nach „diff“ zu sortieren "-Spalte und nehmen Sie dann das erste Element in jeder Artikelgruppe:

>>> df.sort_values("diff").groupby("item", as_index=False).first()
   item  diff  otherstuff
0     1     1           2
1     2    -6           2
2     3     0           0

[3 rows x 3 columns]

Nach dem Login kopieren

Beide Methoden führen zum gewünschten Ergebnis, während die Spalte „Andere Dinge“ beibehalten wird. Beachten Sie, dass die resultierenden Indizes unterschiedlich sein können, obwohl der Zeileninhalt derselbe ist.

Das obige ist der detaillierte Inhalt vonWie kann ich während eines Groupby-Vorgangs andere Spalten in einem Pandas DataFrame verwalten?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!