Bagaimana untuk Mendapatkan Senarai Lengkap Item Pendua dalam Pandas DataFrame?

Susan Sarandon
Lepaskan: 2024-10-26 03:35:02
asal
808 orang telah melayarinya

How to Get a Complete List of Duplicate Items in a Pandas DataFrame?

Dapatkan Senarai Semua Item Pendua dalam Panda

Dalam panda, kaedah pendua boleh digunakan untuk mengenal pasti baris pendua dalam set data pada lajur yang ditentukan. Walau bagaimanapun, secara lalai, ia hanya mengembalikan kejadian pertama setiap pendua. Untuk mendapatkan senarai yang komprehensif, pertimbangkan pendekatan berikut:

Kaedah #1: Penapisan dengan Kaedah isin

Kaedah ini melibatkan dua langkah:

  1. Ekstrak ID unik daripada baris pendua menggunakan:

    <code class="python">ids = df[df.duplicated(cols='ID')]['ID']</code>
    Salin selepas log masuk
  2. Gunakan kaedah isin untuk menapis semua baris yang ID sepadan dengan mana-mana ID pendua:

    <code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>
    Salin selepas log masuk

Kaedah #2: Pengumpulan dengan kumpulan mengikut

Pendekatan ini menggunakan operasi kumpulan demi untuk mengumpulkan baris mengikut lajur ID dan menapis keluar kumpulan dengan lebih daripada satu baris:

<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>
Salin selepas log masuk

Dengan menggunakan kaedah ini, anda boleh mendapatkan semula senarai lengkap item pendua dalam DataFrame panda anda dengan cekap.

Atas ialah kandungan terperinci Bagaimana untuk Mendapatkan Senarai Lengkap Item Pendua dalam Pandas DataFrame?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan