Dalam senario analisis data, penggunaan berbilang penapis untuk mengecilkan hasil selalunya penting. Artikel ini bertujuan untuk menangani pendekatan yang cekap untuk merantai berbilang operasi perbandingan pada objek data Pandas.
Matlamatnya adalah untuk memproses kamus pengendali hubungan dan menerapkannya secara tambahan pada Panda yang diberikan Siri atau DataFrame, menghasilkan set data yang ditapis. Operasi ini memerlukan meminimumkan penyalinan data yang tidak diperlukan, terutamanya apabila berurusan dengan set data yang besar.
Panda menyediakan mekanisme yang sangat cekap untuk menapis data menggunakan pengindeksan boolean. Pengindeksan Boolean melibatkan mewujudkan keadaan logik dan kemudian mengindeks data menggunakan syarat ini. Pertimbangkan contoh berikut:
<code class="python">df.loc[df['col1'] >= 1, 'col1']</code>
Barisan kod ini memilih semua baris dalam DataFrame df di mana nilai dalam lajur 'col1' lebih besar daripada atau sama dengan 1. Hasilnya ialah objek Siri baharu yang mengandungi nilai yang ditapis.
Untuk menggunakan berbilang penapis, kami boleh menggabungkan keadaan boolean menggunakan pengendali logik seperti & (dan) dan | (atau). Contohnya:
<code class="python">df[(df['col1'] >= 1) & (df['col1'] <= 1)]
Operasi ini menapis baris dengan 'col1' kedua-duanya lebih besar daripada atau sama dengan 1 dan kurang daripada atau sama dengan 1.
Untuk memudahkan proses menggunakan berbilang penapis, kami boleh mencipta fungsi pembantu:
<code class="python">def b(x, col, op, n): return op(x[col], n) def f(x, *b): return x[(np.logical_and(*b))]
Fungsi b mencipta keadaan boolean untuk lajur dan pengendali tertentu, manakala f menggunakan berbilang syarat boolean pada DataFrame atau Siri.
Untuk menggunakan fungsi ini, kami boleh menyediakan kamus kriteria penapis:
<code class="python">filters = {'>=': [1], '<=': [1]}</code>
<code class="python">b1 = b(df, 'col1', ge, 1) b2 = b(df, 'col1', le, 1) filtered_df = f(df, b1, b2)</code>
Kod ini menggunakan penapis pada 'col1' lajur dalam DataFrame df dan mengembalikan DataFrame baharu dengan hasil yang ditapis.
Pandas 0.13 memperkenalkan kaedah pertanyaan, yang menawarkan cara mudah untuk menggunakan penapis menggunakan ungkapan rentetan. Untuk pengecam lajur yang sah, kod berikut menjadi mungkin:
<code class="python">df.query('col1 <= 1 & 1 <= col1')</code>
Baris ini mencapai penapisan yang sama seperti contoh kami sebelum ini menggunakan sintaks yang lebih ringkas.
Dengan menggunakan pengindeksan boolean dan fungsi pembantu, kami boleh menggunakan berbilang penapis dengan cekap pada bingkai data dan siri Pandas. Pendekatan ini meminimumkan penyalinan data dan meningkatkan prestasi, terutamanya apabila bekerja dengan set data yang besar.
Atas ialah kandungan terperinci Bagaimana untuk Menapis Objek Data Panda dengan Cekap Menggunakan Pengindeksan Boolean?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!