Bagaimana untuk Menggabungkan DataFrames mengikut Keadaan Julat dalam Pandas Menggunakan Numpy Broadcasting?-Tutorial Python-php.cn

Bagaimana untuk Menggabungkan DataFrames mengikut Keadaan Julat dalam Pandas Menggunakan Numpy Broadcasting?

Mary-Kate Olsen

Lepaskan： 2024-10-31 09:33:01

asal

439 orang telah melayarinya

How to Merge DataFrames by Range Condition in Pandas Using Numpy Broadcasting?

Gabungkan Bingkai Data mengikut Keadaan Julat dalam Panda

Dalam bidang analisis data, menggabungkan data daripada pelbagai sumber ialah tugas biasa. Pandas, perpustakaan Python yang berkuasa untuk manipulasi data, menyediakan pelbagai kaedah untuk menggabungkan bingkai data, termasuk keadaan julat. Artikel ini menyelidiki senario khusus ini dan membentangkan penyelesaian yang cekap menggunakan penyiaran numpy.

Penerangan Masalah

Memandangkan dua bingkai data, A dan B, matlamatnya adalah untuk melaksanakan inner join di mana nilai dalam bingkai data A berada dalam julat tertentu yang ditakrifkan dalam bingkai data B. Secara tradisinya, ini akan dicapai menggunakan sintaks SQL:

<code class="sql">SELECT *
FROM A, B
WHERE A_value BETWEEN B_low AND B_high</code>

Salin selepas log masuk

Penyelesaian Sedia Ada

Panda menawarkan penyelesaian menggunakan lajur tiruan, bergabung pada lajur tiruan, dan kemudian menapis baris yang tidak diperlukan. Walau bagaimanapun, kaedah ini adalah berat dari segi pengiraan. Sebagai alternatif, seseorang boleh menggunakan fungsi carian untuk setiap nilai A pada B, tetapi pendekatan ini juga mempunyai kelemahan.

Penyiaran Numpy: Pendekatan Pragmatik

Penyiaran Numpy menyediakan penyelesaian yang elegan dan cekap. Teknik ini memanfaatkan kevektoran untuk melakukan pengiraan pada keseluruhan tatasusunan dan bukannya elemen individu. Untuk mencapai gabungan yang diingini:

Ekstrak nilai daripada bingkai data A dan B.
Gunakan penyiaran numpy untuk mencipta topeng boolean:
- A_value >= B_low
- A_value <= B_high
Gunakan np.where numpy untuk mencari indeks di mana topeng adalah True.
Concatenate baris yang sepadan daripada bingkai data A dan B berdasarkan indeks yang dikenal pasti.

Pendekatan ini menggunakan penyiaran untuk melaksanakan perbandingan julat pada keseluruhan bingkai data A, dengan ketara mengurangkan masa dan kerumitan pengiraan.

Contoh

Pertimbangkan rangka data berikut:

<code class="python">A = pd.DataFrame(dict(
    A_id=range(10),
    A_value=range(5, 105, 10)
))
B = pd.DataFrame(dict(
    B_id=range(5),
    B_low=[0, 30, 30, 46, 84],
    B_high=[10, 40, 50, 54, 84]
))</code>

Salin selepas log masuk

Output:

   A_id  A_value  B_high  B_id  B_low
0     0        5      10     0      0
1     3       35      40     1     30
2     3       35      50     2     30
3     4       45      50     2     30

Salin selepas log masuk

Output ini menunjukkan kejayaan gabungan bingkai data A dan B berdasarkan keadaan julat yang ditentukan.

Pertimbangan Tambahan

Untuk melakukan cantuman kiri, masukkan baris yang tidak sepadan daripada bingkai data A dalam output. Ini boleh dicapai dengan menggunakan ~np.in1d numpy untuk mengenal pasti baris yang tidak sepadan dan menambahkannya pada hasilnya.

Kesimpulannya, penyiaran numpy menawarkan pendekatan yang mantap dan cekap untuk menggabungkan bingkai data berdasarkan keadaan julat. Keupayaan vektorisasinya meningkatkan prestasi, menjadikannya penyelesaian ideal untuk set data yang besar.

Atas ialah kandungan terperinci Bagaimana untuk Menggabungkan DataFrames mengikut Keadaan Julat dalam Pandas Menggunakan Numpy Broadcasting?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!