Comptage des valeurs distinctes regroupées par domaine dans Pandas
Pour déterminer les ID utilisateur uniques au sein de chaque domaine, vous pouvez utiliser la nunique() de Pandas fonction. Cette fonction compte le nombre de valeurs distinctes dans une colonne spécifiée regroupées par une ou plusieurs autres colonnes.
Dans votre cas, vous pouvez regrouper les données par domaine et utiliser nunique() pour compter les valeurs uniques dans l'ID column :
<code class="python">df.groupby('domain')['ID'].nunique()</code>
Cela produira un DataFrame avec les domaines comme index et le nombre d'identifiants uniques pour chaque domaine comme valeurs :
domain | count |
---|---|
vk.com | 3 |
twitter.com | 2 |
facebook.com | 1 |
google.com | 1 |
Si les valeurs de votre domaine sont en tête ou des guillemets simples de fin ('), vous pouvez les supprimer avant de les regrouper à l'aide de la méthode str.strip("'") :
<code class="python">df.groupby(df.domain.str.strip("'"))['ID'].nunique()</code>
Vous pouvez également conserver le nom de la colonne de domaine dans le DataFrame de sortie en utilisant la fonction agg() avec as_index=False :
<code class="python">df.groupby(by='domain', as_index=False).agg({'ID': pd.Series.nunique})</code>
Cette approche renvoie un DataFrame avec la colonne de domaine et une nouvelle colonne nommée ID qui contient le nombre d'identifiants uniques pour chaque domaine.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!