Python/Pandas 中的快速半正弦近似
计算由存储在 a 中的纬度和经度坐标表示的点对之间的距离时会出现挑战熊猫数据框。对于数百万行来说,使用 Python 循环迭代每一行并应用半正弦公式的简单方法可能会导致计算成本高昂。然而,优化这个过程是可能的。
为了实现更快的计算,我们可以使用 NumPy 进行矢量化。 NumPy 提供基于数组的操作,可以通过避免显式循环来显着提高性能。这是半正弦函数的向量化 NumPy 版本:
<code class="python">import numpy as np def haversine_np(lon1, lat1, lon2, lat2): """ Calculate the great circle distance between two points on the earth (specified in decimal degrees). All args must be of equal length. """ lon1, lat1, lon2, lat2 = map(np.radians, [lon1, lat1, lon2, lat2]) dlon = lon2 - lon1 dlat = lat2 - lat1 a = np.sin(dlat/2.0)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2.0)**2 c = 2 * np.arcsin(np.sqrt(a)) km = 6378.137 * c return km</code>
主要优点:
用法示例:
<code class="python">import numpy as np import pandas lon1, lon2, lat1, lat2 = np.random.randn(4, 1000000) df = pandas.DataFrame(data={'lon1':lon1,'lon2':lon2,'lat1':lat1,'lat2':lat2}) km = haversine_np(df['lon1'],df['lat1'],df['lon2'],df['lat2']) # Or, to create a new column for distances: df['distance'] = haversine_np(df['lon1'],df['lat1'],df['lon2'],df['lat2'])</code>
通过利用 NumPy 的矢量化功能,它几乎可以立即计算数百万个点之间的距离。这种优化方法可以显着提高 Python/Pandas 中地理空间分析任务的效率。
以上是如何使用 Python 有效计算 Pandas 数据框中数百万个纬度/经度坐标之间的距离?的详细内容。更多信息请关注PHP中文网其他相关文章!