빠른 Haversine 근사: Pandas 계산 성능 향상을 위해 Numpy 활용
haversine 공식을 사용하여 Pandas DataFrame에서 좌표 쌍 사이의 거리 계산 대규모 데이터 세트의 경우 계산 비용이 많이 들 수 있습니다. 그러나 점이 상대적으로 가깝고 정확도 요구 사항이 완화되면 더 빠른 근사치가 가능합니다.
다음 코드 조각을 고려하세요.
<code class="python">def haversine(lon1, lat1, lon2, lat2): ... # (haversine calculation) for index, row in df.iterrows(): df.loc[index, 'distance'] = haversine(row['a_longitude'], row['a_latitude'], row['b_longitude'], row['b_latitude'])</code>
이 코드의 성능을 최적화하려면 Numpy의 강력한 배열 작업 및 벡터화 기능을 활용할 수 있습니다. 이 접근 방식을 사용하면 루핑이 필요 없으며 전체 배열을 동시에 효율적으로 처리할 수 있습니다.
다음은 Numpy를 사용한 벡터화된 구현입니다.
<code class="python">import numpy as np def haversine_np(lon1, lat1, lon2, lat2): ... # (haversine calculation) inputs = map(np.radians, [lon1, lat1, lon2, lat2]) distance = haversine_np(*inputs)</code>
이를 Pandas DataFrame에 통합하려면 다음을 사용하면 됩니다. 다음은 다음과 같습니다.
<code class="python">df['distance'] = haversine_np(df['lon1'], df['lat1'], df['lon2'], df['lat2'])</code>
이 벡터화된 접근 방식은 Numpy의 최적화된 작업을 활용하고 시간이 많이 걸리는 루핑 프로세스를 제거합니다. 결과적으로 특히 대규모 데이터 세트의 경우 계산이 훨씬 더 빨라집니다. Numpy의 강력한 기능을 활용하여 Pandas에서 더 빠르고 효율적인 Haversine 근사치를 얻을 수 있습니다.
위 내용은 Numpy는 Pandas 계산에서 Haversine 근사 성능을 어떻게 향상시킬 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!