Heim > Backend-Entwicklung > Python-Tutorial > Wie zähle ich die Häufigkeit doppelter Zeilen in einem Pandas-DataFrame basierend auf mehreren Spalten?

Wie zähle ich die Häufigkeit doppelter Zeilen in einem Pandas-DataFrame basierend auf mehreren Spalten?

Susan Sarandon
Freigeben: 2024-10-25 03:17:02
Original
633 Leute haben es durchsucht

How to Count the Frequency of Duplicate Rows in a Pandas DataFrame Based on Multiple Columns?

Erhalten einer Häufigkeitszählung basierend auf mehreren Datenrahmenspalten

In einem bestimmten Datenrahmen, in dem jede Zeile aus mehreren Spalten besteht, ist dies häufig erforderlich um zu bestimmen, wie häufig doppelte Zeilen auftreten. Diese Aufgabe kann mit der Pandas-Bibliothek von Python gelöst werden.

Lösung

Die Funktion pandas groupby() ermöglicht das Gruppieren von Zeilen basierend auf bestimmten Spalten. Um die Häufigkeit doppelter Zeilen zu zählen, können wir nach den gewünschten Spalten gruppieren und die Funktion size() verwenden:

<code class="python">dfg = df.groupby(by=["Group", "Size"]).size()</code>
Nach dem Login kopieren

Dieser Code generiert ein pandas.Series-Objekt mit den Gruppenschlüsseln als Index und der Häufigkeit gelten als Werte. Um ihn in einen Datenrahmen umzuwandeln, können wir die Funktion „reset_index()“ verwenden:

<code class="python">dfg = df.groupby(by=["Group", "Size"]).size().reset_index(name="Time")</code>
Nach dem Login kopieren

In diesem Beispiel enthält der resultierende Datenrahmen Spalten für „Gruppe“, „Größe“ und „Zeit“. „Zeit“ stellt die Häufigkeitsanzahl dar.

Ein alternativer Ansatz besteht darin, das Argument as_index=False in groupby() zu verwenden:

<code class="python">dfg = df.groupby(by=["Group", "Size"], as_index=False).size()</code>
Nach dem Login kopieren

Dadurch wird direkt ein Datenrahmen generiert, ohne dass weitere Schritte erforderlich sind Indexmanipulation.

Durch die Verwendung dieser Techniken können Sie ganz einfach eine Häufigkeitszählung basierend auf mehreren Spalten in einem Datenrahmen erhalten und wertvolle Einblicke in die Verteilung von Daten gewinnen.

Das obige ist der detaillierte Inhalt vonWie zähle ich die Häufigkeit doppelter Zeilen in einem Pandas-DataFrame basierend auf mehreren Spalten?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage