Hinzufügen einer sequentiellen Zählerspalte zu gruppierten DataFrames ohne Rückruf
Beim Versuch, eine sequentielle Zählerspalte zu Gruppen innerhalb eines DataFrames hinzuzufügen, a Die Rückruffunktion ist möglicherweise nicht der effizienteste Ansatz. Betrachten Sie den folgenden DataFrame:
df = pd.DataFrame( columns="index c1 c2 v1".split(), data=[ [0, "A", "X", 3, ], [1, "A", "X", 5, ], [2, "A", "Y", 7, ], [3, "A", "Y", 1, ], [4, "B", "X", 3, ], [5, "B", "X", 1, ], [6, "B", "X", 3, ], [7, "B", "Y", 1, ], [8, "C", "X", 7, ], [9, "C", "Y", 4, ], [10, "C", "Y", 1, ], [11, "C", "Y", 6, ],]).set_index("index", drop=True)
Das Ziel besteht darin, eine neue Spalte „seq“ zu erstellen, die fortlaufende Nummern für jede Gruppe enthält, was zu der folgenden Ausgabe führt:
c1 c2 v1 seq 0 A X 3 1 1 A X 5 2 2 A Y 7 1 3 A Y 1 2 4 B X 3 1 5 B X 1 2 6 B X 3 3 7 B Y 1 1 8 C X 7 1 9 C Y 4 1 10 C Y 1 2 11 C Y 6 3
Vermeidung der Rückruffunktion:
Anstatt eine Rückruffunktion zu verwenden, können wir die Methode cumcount() nutzen, um das gleiche Ergebnis häufiger zu erzielen effizient. cumcount() zählt die Anzahl der Vorkommen jedes einzelnen Werts in einer Gruppe und gibt eine Pandas-Serie mit der kumulativen Anzahl zurück.
df["seq"] = df.groupby(['c1', 'c2']).cumcount() + 1
Dieser Ansatz ändert den DataFrame direkt und vermeidet den Overhead einer Callback-Funktion.
Anpassen der Startnummer:
Wenn Sie möchten, dass die Reihenfolge bei 1 statt beginnt 0 können Sie 1 zum Ergebnis hinzufügen:
df["seq"] = df.groupby(['c1', 'c2']).cumcount() + 1
Durch die Verwendung der cumcount()-Methode vereinfachen wir den Prozess des Hinzufügens einer sequentiellen Zählerspalte zu gruppierten Datenrahmen und verbessern so sowohl die Lesbarkeit als auch die Leistung.
Das obige ist der detaillierte Inhalt vonWie füge ich gruppierten Pandas-DataFrames effizient eine sequentielle Zählerspalte hinzu, ohne eine Rückruffunktion zu verwenden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!