Rumah > pembangunan bahagian belakang > Tutorial Python > Bagaimanakah Anda Boleh Mengira Jarak Antara Koordinat Geografi dalam Python dan Panda dengan Cepat untuk Set Data Besar?

Bagaimanakah Anda Boleh Mengira Jarak Antara Koordinat Geografi dalam Python dan Panda dengan Cepat untuk Set Data Besar?

Patricia Arquette
Lepaskan: 2024-11-02 18:58:02
asal
341 orang telah melayarinya

How Can You Quickly Calculate Distances Between Geographic Coordinates in Python and Pandas for Large Datasets?

Penghampiran Haversine Pantas dalam Python dan Panda

Mengira jarak antara koordinat geografi menggunakan formula Haversine boleh memakan masa untuk set data yang besar. Untuk aplikasi yang ketepatannya tidak kritikal dan titik berada dalam jarak yang dekat (cth., di bawah 50 batu), terdapat pengoptimuman yang boleh mempercepatkan proses dengan ketara.

Pelaksanaan Numpy Vektor

Formula Haversine boleh divektorkan menggunakan tatasusunan NumPy. Pendekatan ini memanfaatkan fungsi matematik yang dioptimumkan NumPy untuk melaksanakan pengiraan pada keseluruhan tatasusunan, menghapuskan keperluan untuk gelung eksplisit dan meningkatkan prestasi.

<code class="python">import numpy as np

def haversine_np(lon1, lat1, lon2, lat2):
    lon1, lat1, lon2, lat2 = map(np.radians, [lon1, lat1, lon2, lat2])

    dlon = lon2 - lon1
    dlat = lat2 - lat1

    a = np.sin(dlat/2.0)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2.0)**2

    c = 2 * np.arcsin(np.sqrt(a))
    km = 6378.137 * c
    return km</code>
Salin selepas log masuk

Integrasi Panda

Mengintegrasikan vektor Fungsi NumPy dengan bingkai data Pandas adalah mudah. Input kepada haversine_np boleh diberikan secara langsung sebagai lajur daripada bingkai data. Contohnya:

<code class="python">import pandas as pd

# Randomly generated data
lon1, lon2, lat1, lat2 = np.random.randn(4, 1000000)
df = pd.DataFrame(data={'lon1':lon1,'lon2':lon2,'lat1':lat1,'lat2':lat2})

# Calculate distances using vectorized NumPy function
km = haversine_np(df['lon1'], df['lat1'], df['lon2'], df['lat2'])

# Append distances to dataframe
df['distance'] = km</code>
Salin selepas log masuk

Faedah Vektorisasi

Vektorisasi mengelakkan keperluan untuk gelung eksplisit, yang sememangnya perlahan dalam Python. Sebaliknya, operasi bervektor dilakukan secara langsung pada tatasusunan, mengeksploitasi kod C asas yang dioptimumkan oleh NumPy. Ini menghasilkan peningkatan prestasi yang ketara, terutamanya untuk set data yang besar.

Nota:

Walaupun pendekatan yang dioptimumkan ini memberikan percepatan yang ketara, ia memperkenalkan pertukaran kecil dalam ketepatan berbanding dengan formula asal bukan vektor. Walau bagaimanapun, untuk kes di mana jarak kurang daripada 50 batu dan ketepatan tidak diutamakan, faedah prestasi melebihi kehilangan jisim dalam ketepatan.

Atas ialah kandungan terperinci Bagaimanakah Anda Boleh Mengira Jarak Antara Koordinat Geografi dalam Python dan Panda dengan Cepat untuk Set Data Besar?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan