Comment Numpy peut-il améliorer les performances d'approximation Haversine dans les calculs Pandas ?-Tutoriel Python-php.cn

Comment Numpy peut-il améliorer les performances d'approximation Haversine dans les calculs Pandas ?

Patricia Arquette

Libérer： 2024-10-31 20:42:02

original

891 Les gens l'ont consulté

How Can Numpy Enhance Haversine Approximation Performance in Pandas Calculations?

approximation rapide Haversine : tirer parti de Numpy pour des performances améliorées dans les calculs Pandas

Calcul des distances entre des paires de coordonnées dans un DataFrame Pandas à l'aide de la formule Haversine peut être coûteux en termes de calcul pour de grands ensembles de données. Cependant, lorsque les points sont relativement proches et que les exigences de précision sont assouplies, une approximation plus rapide est possible.

Considérez l'extrait de code suivant :

<code class="python">def haversine(lon1, lat1, lon2, lat2):
    ... # (haversine calculation)

for index, row in df.iterrows():
    df.loc[index, 'distance'] = haversine(row['a_longitude'], row['a_latitude'], row['b_longitude'], row['b_latitude'])</code>

Copier après la connexion

Pour optimiser les performances de ce code, nous peut exploiter les puissantes opérations de tableau et les capacités de vectorisation de Numpy. Cette approche élimine le besoin de boucle et permet un traitement efficace de tableaux entiers simultanément.

Voici une implémentation vectorisée utilisant Numpy :

<code class="python">import numpy as np

def haversine_np(lon1, lat1, lon2, lat2):
    ... # (haversine calculation)

inputs = map(np.radians, [lon1, lat1, lon2, lat2])
distance = haversine_np(*inputs)</code>

Copier après la connexion

Pour l'incorporer dans un Pandas DataFrame, nous pouvons simplement utiliser ce qui suit :

<code class="python">df['distance'] = haversine_np(df['lon1'], df['lat1'], df['lon2'], df['lat2'])</code>

Copier après la connexion

Cette approche vectorisée tire parti des opérations optimisées de Numpy et élimine le processus de bouclage fastidieux. Par conséquent, le calcul est nettement plus rapide, en particulier pour les grands ensembles de données. En tirant parti de la puissance de Numpy, nous pouvons obtenir des approximations haversine plus rapides et plus efficaces dans Pandas.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!