Wie zähle ich Zeilen basierend auf gemeinsamen Spaltenwerten in einem Pandas-DataFrame?-Python-Tutorial-php.cn

Wie zähle ich Zeilen basierend auf gemeinsamen Spaltenwerten in einem Pandas-DataFrame?

DDD

Freigeben： 2024-10-26 08:01:02

Original

688 Leute haben es durchsucht

How to Count Rows Based on Common Column Values in a Pandas DataFrame?

Zeilen basierend auf gemeinsamen Spaltenwerten in einem Datenrahmen zählen

Viele Datensätze enthalten doppelte Zeilen mit identischen Werten für bestimmte Spalten. Um die Häufigkeit dieser Vorkommnisse zu analysieren, können wir DataFrame-Gruppierungstechniken einsetzen.

Stellen Sie sich einen DataFrame vor, der aus den Spalten „Gruppe“ und „Größe“ besteht:

Group	Size	Time
Short	Small	2
Moderate	Medium	1
Moderate	Small	1
Tall	Large	1

GroupBy und Size

Mit der Pandas-Groupby-Funktion können wir Zeilen basierend auf angegebenen Spalten gruppieren. Die Größenfunktion bietet eine praktische Möglichkeit, die Anzahl der Zeilen innerhalb jeder Gruppe zu zählen.

<code class="python">import pandas as pd

# Load the sample data
data = {'Group': ['Short', 'Short', 'Moderate', 'Moderate', 'Tall'], 'Size': ['Small', 'Small', 'Medium', 'Small', 'Large']}
df = pd.DataFrame(data)

# Group by "Group" and "Size" columns
dfg = df.groupby(by=["Group", "Size"]).size()</code>

Nach dem Login kopieren

Dieser Vorgang würde eine Serie mit der folgenden Ausgabe zurückgeben:

Group     Size
Moderate  Medium    1
          Small     1
Short     Small     2
Tall      Large     1
dtype: int64

Nach dem Login kopieren

Zurücksetzen Index und Optionalität

Um die Serie in einen DataFrame mit einer Spalte für die Zählungen umzuwandeln, können wir reset_index verwenden und einen Namen für die neue Spalte angeben:

<code class="python">dfg = df.groupby(by=["Group", "Size"]).size().reset_index(name="Time")</code>

Nach dem Login kopieren

Zusätzlich Abhängig von Ihren spezifischen Anforderungen können Sie Variationen der Groupby-Funktion mit dem Parameter as_index verwenden:

<code class="python"># Option 1: Explicitly set index to True
dfg = df.groupby(by=["Group", "Size"], as_index=True).size()

# Option 2: Leave index unchanged (default)
dfg = df.groupby(by=["Group", "Size"]).size()

# Option 3: Explicitly set index to False
dfg = df.groupby(by=["Group", "Size"], as_index=False).size()</code>

Nach dem Login kopieren

Das obige ist der detaillierte Inhalt vonWie zähle ich Zeilen basierend auf gemeinsamen Spaltenwerten in einem Pandas-DataFrame?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!