Optimisation de l'itération DataFrame dans Pandas
Itérer à travers des dataframes de manière séquentielle pour effectuer une analyse complexe est une tâche courante dans le traitement des données financières. Bien que le code fourni utilisant enumerate() avec df.values fournisse une approche simple, il soulève des questions sur son efficacité.
Pour résoudre ce problème, pandas propose une solution spécialisée. La fonction iterrows() permet une itération directe sur les lignes du dataframe, renvoyant un tuple d'index et les valeurs de ligne correspondantes. Cette méthode :
for index, row in df.iterrows(): # perform analysis based on index and row values
Pour des performances améliorées, la fonction itertuples() offre une alternative économe en mémoire à iterrows().
Alternativement, une approche très efficace consiste à exploiter directement les fonctions numpy sur les colonnes du dataframe, en évitant complètement l'itération des lignes. Les opérations numpy agissent sur des colonnes entières, permettant des calculs vectorisés plus rapides. Par exemple, pour calculer le prix d'ouverture moyen :
import numpy as np mean_open = np.mean(df['Open'])
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!