Étant donné un DataFrame contenant des colonnes pour ID (id), groupe (groupe ), et term (term), l'objectif est de compter efficacement les occurrences de chaque terme pour chaque combinaison unique de ID et group.
En utilisant les puissantes fonctions groupby et size de Pandas, nous pouvons y parvenir sans recourir à des boucles :
df.groupby(['id', 'group', 'term']).size().unstack(fill_value=0)
Ceci L'opération produit un MultiIndex DataFrame hiérarchique présentant le terme compte :
</p> <div class="code" style="position:relative; padding:0px; margin:0px;"><pre class="brush:php;toolbar:false"> term
groupe term1 term2 term3
id
1 3 2 0
2 2 1 1
Même pour des ensembles de données massifs comportant des millions de lignes, cette approche vectorisée démontre des performances exceptionnelles :
1,000,000 rows ---------------- Elapsed time: 1.2 seconds
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!