Rumah > pembangunan bahagian belakang > Tutorial Python > Bagaimana untuk mengalih keluar Baris Pendua Berdasarkan Indeks dalam Panda?

Bagaimana untuk mengalih keluar Baris Pendua Berdasarkan Indeks dalam Panda?

Barbara Streisand
Lepaskan: 2024-11-13 05:13:02
asal
257 orang telah melayarinya

How to Remove Duplicate Rows Based on Indices in Pandas?

Cara Mengeluarkan Baris Pendua Berdasarkan Indeks dalam Panda

Dalam analisis data, selalunya perlu untuk mengenal pasti dan mengalih keluar baris pendua dalam set data. Apabila bekerja dengan Pandas, perpustakaan Python yang popular untuk manipulasi data, anda mungkin menghadapi senario di mana berbilang baris berkongsi nilai indeks yang sama. Isu ini boleh timbul disebabkan oleh sebab seperti ralat kemasukan data atau pertindihan yang tidak diingini.

Contoh Baris Pendua

Pertimbangkan cuaca DataFrame berikut, yang mewakili pemerhatian yang diambil setiap jam selang:

                      Sta  Precip1hr  Precip5min  Temp  DewPnt  WindSpd  WindDir  AtmPress
Date                                                                                      
2001-01-01 00:00:00  KPDX          0           0     4       3        0        0     30.31
2001-01-01 00:05:00  KPDX          0           0     4       3        0        0     30.30
2001-01-01 00:10:00  KPDX          0           0     4       3        4       80     30.30
2001-01-01 00:15:00  KPDX          0           0     3       2        5       90     30.30
2001-01-01 00:20:00  KPDX          0           0     3       2       10      110     30.28
Salin selepas log masuk

Dalam DataFrame ini, perhatikan bahawa pemerhatian untuk "2001-01-01 00:00:00" diduakan pada penghujung DataFrame. Untuk membersihkan data, adalah penting untuk mengalih keluar baris pendua ini.

Menggunakan Kaedah pendua

Panda menyediakan kaedah cekap dipanggil pendua untuk mengenal pasti dan memilih baris pendua. Kaedah ini mengambil kira baris pendua berdasarkan semua lajur dalam DataFrame. Dengan melepasi parameter keep, anda boleh menentukan sama ada untuk mengekalkan kejadian pertama atau terakhir bagi setiap kumpulan pendua.

Dalam kes ini, kami ingin mengekalkan kejadian pertama setiap kumpulan pendua berdasarkan indeks:

df3 = df3[~df3.index.duplicated(keep='first')]
Salin selepas log masuk

Pendekatan ini memanfaatkan kaedah pendua objek Indeks Pandas, yang beroperasi secara langsung pada indeks DataFrame. Dengan menafikan hasil menggunakan ~, kami memilih baris yang tidak ditandakan sebagai pendua. Menentukan keep='first' memastikan bahawa kami mengekalkan contoh pertama bagi setiap kumpulan indeks pendua.

Pertimbangan Prestasi

Adalah penting untuk ambil perhatian bahawa prestasi kaedah yang berbeza untuk mengalih keluar baris pendua berbeza-beza bergantung pada data dan syarat khusus. Penandaarasan menunjukkan bahawa kaedah pendua adalah yang paling berprestasi untuk contoh yang diberikan, diikuti dengan kaedah kumpulan mengikut dan reset_index().drop_duplicates().

Atas ialah kandungan terperinci Bagaimana untuk mengalih keluar Baris Pendua Berdasarkan Indeks dalam Panda?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan