Rumah > pembangunan bahagian belakang > Tutorial Python > Bagaimana untuk mengalih keluar Baris dengan Indeks Pendua dalam Pandas DataFrame?

Bagaimana untuk mengalih keluar Baris dengan Indeks Pendua dalam Pandas DataFrame?

DDD
Lepaskan: 2024-11-22 10:22:10
asal
979 orang telah melayarinya

How to Remove Rows with Duplicate Indices in a Pandas DataFrame?

Cara Mengeluarkan Baris dengan Indeks Pendua dalam Python Panda

Dalam konteks analisis data, berurusan dengan indeks pendua boleh menjadi masalah. Artikel ini meneroka pelbagai pendekatan untuk mengalih keluar baris dengan indeks pendua dalam Pandas DataFrame, memfokuskan pada kes khusus yang dibentangkan dalam DataFrame cuaca.

Masalah:

Seorang saintis mendapatkan semula data cuaca daripada web, yang merangkumi pemerhatian yang direkodkan setiap lima minit. Kadangkala, pemerhatian yang diperbetulkan ditambah sebagai baris pendua pada penghujung setiap fail. Matlamatnya adalah untuk mengalih keluar baris pendua ini untuk memastikan ketekalan dan ketepatan data.

Penyelesaian:

Satu kaedah berkesan untuk mengalih keluar baris pendua adalah melalui kaedah pendua yang digunakan pada Indeks Pandas. Kaedah ini membandingkan indeks setiap baris dan menandai pendua, membolehkan pengguna mengalih keluarnya dengan mudah. Kod berikut menunjukkan pendekatan ini:

df3 = df3[~df3.index.duplicated(keep='first')]
Salin selepas log masuk

Kod ini mengekalkan kejadian pertama bagi setiap nilai indeks pendua, menghapuskan baris tambahan.

Kaedah Alternatif:

Sebagai alternatif, kaedah lain boleh digunakan untuk mengalih keluar baris pendua. Walau bagaimanapun, kaedah ini mungkin berbeza dalam prestasi dan kecekapan:

  • drop_duplicates: Walaupun sesuai, ia agak perlahan berbanding kaedah pendua.
  • groupby: Kaedah ini boleh digunakan dengan fungsi pertama untuk mengekalkan kejadian pertama setiap pendua indeks.
  • reset_index dan set_index: Gabungan ini boleh digunakan untuk menangani indeks pendua, tetapi ia tidak optimum seperti kaedah pendua.

Perbandingan Prestasi :

Menggunakan data contoh yang disediakan, ujian prestasi mendedahkan bahawa kaedah pendua mempunyai prestasi terbaik, diikuti dengan kaedah berkumpulan. Ambil perhatian bahawa prestasi mungkin berbeza-beza bergantung pada saiz dan struktur set data.

Sokongan MultiIndex:

Kaedah pendua juga berfungsi dengan MultiIndex, membolehkan pengalihan keluar baris pendua menggunakan berbilang peringkat indeks. Ciri ini menyediakan serba boleh dan meningkatkan ketekalan data.

Kesimpulan:

Kaedah pendua ialah penyelesaian yang sangat cekap dan ringkas untuk mengalih keluar baris dengan indeks pendua dalam Pandas DataFrames. Ia menawarkan fleksibiliti, prestasi dan keupayaan untuk mengendalikan struktur MultiIndex, menjadikannya alat yang berharga untuk tugas pembersihan dan prapemprosesan data.

Atas ialah kandungan terperinci Bagaimana untuk mengalih keluar Baris dengan Indeks Pendua dalam Pandas DataFrame?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan