Zählen eindeutiger Werte gruppiert nach Domäne in Pandas
Um die eindeutigen Benutzer-IDs innerhalb jeder Domäne zu ermitteln, können Sie nunique() von Pandas verwenden Funktion. Diese Funktion zählt die Anzahl der eindeutigen Werte in einer bestimmten Spalte, gruppiert nach einer oder mehreren anderen Spalten.
In Ihrem Fall können Sie die Daten nach Domäne gruppieren und nunique() verwenden, um die eindeutigen Werte in der ID zu zählen Spalte:
<code class="python">df.groupby('domain')['ID'].nunique()</code>
Dadurch wird ein DataFrame mit den Domänen als Index und der Anzahl der eindeutigen IDs für jede Domäne als Werten erstellt:
domain | count |
---|---|
vk.com | 3 |
twitter.com | 2 |
facebook.com | 1 |
google.com | 1 |
Wenn Ihre Domänenwerte führende Werte haben oder nachgestellte einfache Anführungszeichen (') können Sie diese vor dem Gruppieren mit der Methode str.strip("'") entfernen:
<code class="python">df.groupby(df.domain.str.strip("'"))['ID'].nunique()</code>
Alternativ können Sie den Domänenspaltennamen im Ausgabe-DataFrame beibehalten, indem Sie verwenden die agg()-Funktion mit as_index=False:
<code class="python">df.groupby(by='domain', as_index=False).agg({'ID': pd.Series.nunique})</code>
Dieser Ansatz gibt einen DataFrame mit der Domänenspalte und einer neuen Spalte namens „ID“ zurück, die die Anzahl der eindeutigen IDs für jede Domäne enthält.
Das obige ist der detaillierte Inhalt vonWie zähle ich in Pandas unterschiedliche, nach Domäne gruppierte Werte?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!