Sie müssen den Datenrahmen nach den Spalten „id“ und „group“ gruppieren und jeweils die Anzahl berechnen eindeutiger Wert in der Spalte „Begriff“ für jedes eindeutige Paar von „id“- und „group“-Werten. Mit anderen Worten, Sie müssen bestimmen, wie oft jeder Begriff in jeder ID-Gruppen-Kombination vorkommt.
Sie können dies mithilfe der Groupby- und Size-Funktionen von Pandas erreichen:
df.groupby(['id', 'group', 'term']).size().unstack(fill_value=0)
Dies ergibt eine Tabelle mit der ID und der Gruppe als Indizes und dem Begriff als Spalten.
Diese Methode ist sehr effizient, selbst für große Datensätze. Für einen Datenrahmen mit 1.000.000 Zeilen dauert die Ausführung des obigen Codes nur etwa 6 Sekunden.
Das obige ist der detaillierte Inhalt vonWie kann man Termvorkommen innerhalb von ID-Gruppen-Kombinationen in einem Pandas-DataFrame effizient zählen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!