Cara Mengeluarkan Baris Pendua Berdasarkan Indeks dalam Panda
Dalam analisis data, selalunya perlu untuk mengenal pasti dan mengalih keluar baris pendua dalam set data. Apabila bekerja dengan Pandas, perpustakaan Python yang popular untuk manipulasi data, anda mungkin menghadapi senario di mana berbilang baris berkongsi nilai indeks yang sama. Isu ini boleh timbul disebabkan oleh sebab seperti ralat kemasukan data atau pertindihan yang tidak diingini.
Contoh Baris Pendua
Pertimbangkan cuaca DataFrame berikut, yang mewakili pemerhatian yang diambil setiap jam selang:
Sta Precip1hr Precip5min Temp DewPnt WindSpd WindDir AtmPress Date 2001-01-01 00:00:00 KPDX 0 0 4 3 0 0 30.31 2001-01-01 00:05:00 KPDX 0 0 4 3 0 0 30.30 2001-01-01 00:10:00 KPDX 0 0 4 3 4 80 30.30 2001-01-01 00:15:00 KPDX 0 0 3 2 5 90 30.30 2001-01-01 00:20:00 KPDX 0 0 3 2 10 110 30.28
Dalam DataFrame ini, perhatikan bahawa pemerhatian untuk "2001-01-01 00:00:00" diduakan pada penghujung DataFrame. Untuk membersihkan data, adalah penting untuk mengalih keluar baris pendua ini.
Menggunakan Kaedah pendua
Panda menyediakan kaedah cekap dipanggil pendua untuk mengenal pasti dan memilih baris pendua. Kaedah ini mengambil kira baris pendua berdasarkan semua lajur dalam DataFrame. Dengan melepasi parameter keep, anda boleh menentukan sama ada untuk mengekalkan kejadian pertama atau terakhir bagi setiap kumpulan pendua.
Dalam kes ini, kami ingin mengekalkan kejadian pertama setiap kumpulan pendua berdasarkan indeks:
df3 = df3[~df3.index.duplicated(keep='first')]
Pendekatan ini memanfaatkan kaedah pendua objek Indeks Pandas, yang beroperasi secara langsung pada indeks DataFrame. Dengan menafikan hasil menggunakan ~, kami memilih baris yang tidak ditandakan sebagai pendua. Menentukan keep='first' memastikan bahawa kami mengekalkan contoh pertama bagi setiap kumpulan indeks pendua.
Pertimbangan Prestasi
Adalah penting untuk ambil perhatian bahawa prestasi kaedah yang berbeza untuk mengalih keluar baris pendua berbeza-beza bergantung pada data dan syarat khusus. Penandaarasan menunjukkan bahawa kaedah pendua adalah yang paling berprestasi untuk contoh yang diberikan, diikuti dengan kaedah kumpulan mengikut dan reset_index().drop_duplicates().
Atas ialah kandungan terperinci Bagaimana untuk mengalih keluar Baris Pendua Berdasarkan Indeks dalam Panda?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!