approximation rapide Haversine : tirer parti de Numpy pour des performances améliorées dans les calculs Pandas
Calcul des distances entre des paires de coordonnées dans un DataFrame Pandas à l'aide de la formule Haversine peut être coûteux en termes de calcul pour de grands ensembles de données. Cependant, lorsque les points sont relativement proches et que les exigences de précision sont assouplies, une approximation plus rapide est possible.
Considérez l'extrait de code suivant :
<code class="python">def haversine(lon1, lat1, lon2, lat2): ... # (haversine calculation) for index, row in df.iterrows(): df.loc[index, 'distance'] = haversine(row['a_longitude'], row['a_latitude'], row['b_longitude'], row['b_latitude'])</code>
Pour optimiser les performances de ce code, nous peut exploiter les puissantes opérations de tableau et les capacités de vectorisation de Numpy. Cette approche élimine le besoin de boucle et permet un traitement efficace de tableaux entiers simultanément.
Voici une implémentation vectorisée utilisant Numpy :
<code class="python">import numpy as np def haversine_np(lon1, lat1, lon2, lat2): ... # (haversine calculation) inputs = map(np.radians, [lon1, lat1, lon2, lat2]) distance = haversine_np(*inputs)</code>
Pour l'incorporer dans un Pandas DataFrame, nous pouvons simplement utiliser ce qui suit :
<code class="python">df['distance'] = haversine_np(df['lon1'], df['lat1'], df['lon2'], df['lat2'])</code>
Cette approche vectorisée tire parti des opérations optimisées de Numpy et élimine le processus de bouclage fastidieux. Par conséquent, le calcul est nettement plus rapide, en particulier pour les grands ensembles de données. En tirant parti de la puissance de Numpy, nous pouvons obtenir des approximations haversine plus rapides et plus efficaces dans Pandas.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!