Comprendre l'écart de performances entre s.replace et d'autres méthodes de remplacement de valeurs dans Pandas
Le remplacement des valeurs dans une série Pandas à l'aide d'un dictionnaire est un tâche commune. Cependant, s.replace, la méthode recommandée pour cette opération, présente souvent des performances nettement plus lentes par rapport aux méthodes alternatives telles que la compréhension de listes.
Causes profondes de la lenteur de s.replace
s.replace effectue un traitement supplémentaire au-delà du simple mappage de dictionnaire. Il gère les cas extrêmes et les situations rares, qui nécessitent des opérations plus complexes et plus longues. Plus précisément, s.replace convertit le dictionnaire en liste, recherche les dictionnaires imbriqués et parcourt la liste pour introduire les clés et les valeurs dans une fonction de remplacement distincte. Cette surcharge ralentit considérablement le processus.
Optimisation du remplacement de la valeur
Pour optimiser le remplacement de la valeur, les directives suivantes doivent être suivies :
Analyse comparative
Les résultats de l'analyse comparative démontrent les différences de performances entre les différentes méthodes de remplacement :
TEST 1 - Complet Map
%timeit df['A'].replace(d) # 1.98s %timeit df['A'].map(d) # 84.3ms %timeit [d[i] for i in lst] # 134ms
TEST 2 - Carte partielle
%timeit df['A'].replace(d) # 20.1ms %timeit df['A'].map(d).fillna(df['A']).astype(int) # 111ms %timeit [d.get(i, i) for i in lst] # 243ms
Ces résultats indiquent clairement que s.map et sa version modifiée fonctionnent nettement plus rapidement que s .replace, surtout lorsqu'une partie substantielle des valeurs de la série est couverte par les clés du dictionnaire.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!