Wie zähle ich die Häufigkeit doppelter Zeilen in einem Pandas-DataFrame basierend auf mehreren Spalten?-Python-Tutorial-php.cn

Wie zähle ich die Häufigkeit doppelter Zeilen in einem Pandas-DataFrame basierend auf mehreren Spalten?

Susan Sarandon

Freigeben： 2024-10-25 03:17:02

Original

678 Leute haben es durchsucht

How to Count the Frequency of Duplicate Rows in a Pandas DataFrame Based on Multiple Columns?

Erhalten einer Häufigkeitszählung basierend auf mehreren Datenrahmenspalten

In einem bestimmten Datenrahmen, in dem jede Zeile aus mehreren Spalten besteht, ist dies häufig erforderlich um zu bestimmen, wie häufig doppelte Zeilen auftreten. Diese Aufgabe kann mit der Pandas-Bibliothek von Python gelöst werden.

Lösung

Die Funktion pandas groupby() ermöglicht das Gruppieren von Zeilen basierend auf bestimmten Spalten. Um die Häufigkeit doppelter Zeilen zu zählen, können wir nach den gewünschten Spalten gruppieren und die Funktion size() verwenden:

<code class="python">dfg = df.groupby(by=["Group", "Size"]).size()</code>

Nach dem Login kopieren

Dieser Code generiert ein pandas.Series-Objekt mit den Gruppenschlüsseln als Index und der Häufigkeit gelten als Werte. Um ihn in einen Datenrahmen umzuwandeln, können wir die Funktion „reset_index()“ verwenden:

<code class="python">dfg = df.groupby(by=["Group", "Size"]).size().reset_index(name="Time")</code>

Nach dem Login kopieren

In diesem Beispiel enthält der resultierende Datenrahmen Spalten für „Gruppe“, „Größe“ und „Zeit“. „Zeit“ stellt die Häufigkeitsanzahl dar.

Ein alternativer Ansatz besteht darin, das Argument as_index=False in groupby() zu verwenden:

<code class="python">dfg = df.groupby(by=["Group", "Size"], as_index=False).size()</code>

Nach dem Login kopieren

Dadurch wird direkt ein Datenrahmen generiert, ohne dass weitere Schritte erforderlich sind Indexmanipulation.

Durch die Verwendung dieser Techniken können Sie ganz einfach eine Häufigkeitszählung basierend auf mehreren Spalten in einem Datenrahmen erhalten und wertvolle Einblicke in die Verteilung von Daten gewinnen.

Das obige ist der detaillierte Inhalt vonWie zähle ich die Häufigkeit doppelter Zeilen in einem Pandas-DataFrame basierend auf mehreren Spalten?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!