Penghampiran Haversine Pantas: Memanfaatkan Numpy untuk Prestasi Dipertingkatkan dalam Pengiraan Panda
Mengira jarak antara pasangan koordinat dalam Bingkai Data Pandas menggunakan formula haversine boleh menjadi mahal dari segi pengiraan untuk set data yang besar. Walau bagaimanapun, apabila mata agak hampir dan keperluan ketepatan dilonggarkan, anggaran yang lebih pantas adalah mungkin.
Pertimbangkan coretan kod berikut:
<code class="python">def haversine(lon1, lat1, lon2, lat2): ... # (haversine calculation) for index, row in df.iterrows(): df.loc[index, 'distance'] = haversine(row['a_longitude'], row['a_latitude'], row['b_longitude'], row['b_latitude'])</code>
Untuk mengoptimumkan prestasi kod ini, kami boleh memanfaatkan operasi tatasusunan Numpy yang berkuasa dan keupayaan vektorisasi. Pendekatan ini menghapuskan keperluan untuk gelung dan membolehkan pemprosesan yang cekap bagi keseluruhan tatasusunan secara serentak.
Berikut ialah pelaksanaan vektor menggunakan Numpy:
<code class="python">import numpy as np def haversine_np(lon1, lat1, lon2, lat2): ... # (haversine calculation) inputs = map(np.radians, [lon1, lat1, lon2, lat2]) distance = haversine_np(*inputs)</code>
Untuk memasukkan ini ke dalam Pandas DataFrame, kita hanya boleh menggunakan yang berikut:
<code class="python">df['distance'] = haversine_np(df['lon1'], df['lat1'], df['lon2'], df['lat2'])</code>
Pendekatan vektor ini mengambil kesempatan daripada operasi dioptimumkan Numpy dan menghapuskan proses gelung yang memakan masa. Akibatnya, pengiraan adalah lebih pantas, terutamanya untuk set data yang besar. Dengan memanfaatkan kuasa Numpy, kami boleh mencapai anggaran haversine yang lebih pantas dan lebih cekap dalam Panda.
Atas ialah kandungan terperinci Bagaimanakah Numpy Boleh Meningkatkan Prestasi Penghampiran Haversine dalam Pengiraan Panda?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!