Cara menggunakan Panda untuk mengendalikan nilai pendua dalam data: analisis komprehensif kaedah penyahduplikasian-Tutorial Python-php.cn

Rumah

pembangunan bahagian belakang

Tutorial Python

Cara menggunakan Panda untuk mengendalikan nilai pendua dalam data: analisis komprehensif kaedah penyahduplikasian

PHPz

Jan 24, 2024 am 10:49 AM

Pemprosesan data pandas Alih keluar pendua

Cara menggunakan Panda untuk mengendalikan nilai pendua dalam data: analisis komprehensif kaedah penyahduplikasian

Analisis komprehensif kaedah deduplikasi Pandas: Mengendalikan nilai pendua dalam data dengan mudah, contoh kod khusus diperlukan

Pengenalan:
Dalam proses analisis dan pemprosesan data, selalunya ditemui bahawa data mengandungi nilai pendua. Nilai pendua ini mungkin mengelirukan keputusan analisis atau menjejaskan ketepatan data. Oleh itu, deduplikasi adalah bahagian penting dalam pemprosesan data. Sebagai perpustakaan pemprosesan data yang digunakan secara meluas dalam Python, Pandas menyediakan pelbagai kaedah penduaan dan boleh mengendalikan nilai pendua dalam data dengan mudah. Artikel ini akan menganalisis kaedah deduplikasi yang biasa digunakan dalam Panda dan memberikan contoh kod khusus untuk membantu pembaca memahami dan menggunakan kaedah ini dengan lebih baik.

1. kaedah drop_duplicates
Kaedah drop_duplicates adalah salah satu kaedah deduplikasi yang paling biasa digunakan dalam Panda. Ia mengalih keluar nilai pendua daripada data berdasarkan lajur atau baris yang ditentukan. Penggunaan khusus adalah seperti berikut:

df.drop_duplicates(subset=None, keep='first', inplace=False)

Salin selepas log masuk

Antaranya, df mewakili set data yang akan dinyahduplikasi, subset ialah lajur atau baris yang ditentukan, dan lalai ialah Tiada, yang bermaksud semua lajur dinyahduplikasi. Parameter simpan menunjukkan nilai berulang yang perlu disimpan. Lalai ialah 'pertama', yang bermaksud mengekalkan nilai yang pertama muncul Anda juga boleh memilih 'terakhir', yang bermaksud mengekalkan nilai yang muncul terakhir. Parameter inplace menunjukkan sama ada untuk mengubah suai set data asal Nilai lalai ialah Palsu, yang bermaksud mengembalikan set data pendua yang baharu.

Contoh khusus:
Andaikan kita mempunyai set data df yang mengandungi nilai pendua:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 1, 2, 3],
                   'B': ['a', 'b', 'c', 'a', 'b', 'c']})

print(df)

Salin selepas log masuk

Keputusan yang dijalankan adalah seperti berikut:

Salin selepas log masuk

Kita boleh menggunakan kaedah drop_duplicates untuk mengalih keluar nilai pendua:

hasil yang dijalankan adalah seperti berikut: :

df_drop_duplicates = df.drop_duplicates()

print(df_drop_duplicates)

Salin selepas log masuk

Daripada keputusan yang kita Seperti yang dapat dilihat, kaedah drop_duplicates berjaya mengalih keluar nilai pendua dalam set data.

2. Kaedah pendua

Kaedah pendua adalah satu lagi kaedah penduaan yang biasa digunakan dalam Panda. Tidak seperti kaedah drop_duplicates, kaedah pendua mengembalikan Siri Boolean untuk menentukan sama ada elemen dalam setiap baris atau lajur diduplikasi. Penggunaan khusus adalah seperti berikut:

Salin selepas log masuk

Antaranya, df mewakili set data untuk diduplikasi, subset ialah lajur atau baris yang ditentukan, dan lalai ialah Tiada, yang bermaksud semua lajur dinilai. Maksud parameter keep adalah sama seperti kaedah drop_duplicates.

Contoh khusus:

Andaikan kita masih menggunakan set data di atas df, kita boleh menggunakan kaedah pendua untuk menentukan sama ada setiap baris diulang:

df.duplicated(subset=None, keep='first')

Salin selepas log masuk

Hasil larian adalah seperti berikut:

df_duplicated = df.duplicated()

print(df_duplicated)

Salin selepas log masuk

Seperti yang dapat dilihat daripada keputusan , baris ke-0 dan ke-0 dalam Baris Siri 1 dan 2 yang dikembalikan adalah Salah, menunjukkan bahawa baris ini tidak berulang;

3. Senario aplikasi drop_duplicates dan kaedah pendua

drop_duplicates dan kaedah pendua digunakan secara meluas dalam pembersihan data dan analisis data senario aplikasi biasa termasuk:

Contoh khusus:

Andaikan kami mempunyai set data jualan df, yang mengandungi rekod jualan di beberapa bandar. Kami mahu mengira jumlah jualan di setiap bandar dan mengalih keluar bandar pendua. Kita boleh menggunakan kod berikut untuk mencapai ini:

0    False
1    False
2    False
3     True
4     True
5     True
dtype: bool

Salin selepas log masuk

Keputusan yang dijalankan adalah seperti berikut:

import pandas as pd

df = pd.DataFrame({'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Shanghai', 'Beijing'],
                   'Sales': [1000, 2000, 3000, 1500, 1200]})

df_drop_duplicates = df.drop_duplicates(subset='City')
df_total_sales = df.groupby('City')['Sales'].sum()

print(df_drop_duplicates)
print(df_total_sales)

Salin selepas log masuk

Seperti yang dapat dilihat daripada keputusan, kami mula-mula menggunakan kaedah drop_duplicates untuk mengalih keluar bandar pendua, dan kemudian menggunakan kaedah kumpulan dan jumlah untuk mengira jumlah jualan setiap bandar.

Kesimpulan:

Melalui analisis artikel ini, kami memahami senario penggunaan dan aplikasi kaedah penduaan yang biasa digunakan drop_duplicates dan pendua dalam Panda. Kaedah ini boleh membantu kami dengan mudah mengendalikan nilai pendua dalam data dan memastikan ketepatan analisis dan pemprosesan data. Dalam aplikasi praktikal, kita boleh memilih kaedah yang sesuai mengikut masalah tertentu dan menggabungkannya dengan kaedah Panda lain untuk pembersihan dan analisis data.

Contoh kod:

        City  Sales
0    Beijing   1000
1   Shanghai   2000
2  Guangzhou   3000
       Sales
City        
Beijing  2200
Guangzhou  3000
Shanghai  3500

Salin selepas log masuk

Kod di atas dijalankan dalam persekitaran Python, dan hasilnya akan mengeluarkan set data pendua dan jumlah statistik jualan.

Rujukan:

"Menggunakan Python untuk Analisis Data" (Edisi Kedua), pengarang: Wes McKinney, People's Posts and Telecommunications Press, 2019 Year .

Atas ialah kandungan terperinci Cara menggunakan Panda untuk mengendalikan nilai pendua dalam data: analisis komprehensif kaedah penyahduplikasian. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Arahan sembang dan cara menggunakannya

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7535

Tutorial CakePHP

1379

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Menyelesaikan masalah pemasangan panda biasa: tafsiran dan penyelesaian kepada ralat pemasangan Feb 19, 2024 am 09:19 AM

Tutorial pemasangan Pandas: Analisis ralat pemasangan biasa dan penyelesaiannya, contoh kod khusus diperlukan Pengenalan: Pandas ialah alat analisis data yang berkuasa yang digunakan secara meluas dalam pembersihan data, pemprosesan data dan visualisasi data, jadi ia sangat dihormati dalam bidang sains data. Walau bagaimanapun, disebabkan oleh konfigurasi persekitaran dan isu pergantungan, anda mungkin menghadapi beberapa kesukaran dan ralat semasa memasang panda. Artikel ini akan memberi anda tutorial pemasangan panda dan menganalisis beberapa ralat pemasangan biasa serta penyelesaiannya. 1. Pasang panda

Petua praktikal untuk membaca fail txt menggunakan panda Jan 19, 2024 am 09:49 AM

Petua praktikal untuk membaca fail txt menggunakan panda, contoh kod khusus diperlukan Dalam analisis data dan pemprosesan data, fail txt ialah format data biasa. Menggunakan panda untuk membaca fail txt membolehkan pemprosesan data yang cepat dan mudah. Artikel ini akan memperkenalkan beberapa teknik praktikal untuk membantu anda menggunakan panda dengan lebih baik untuk membaca fail txt, bersama-sama dengan contoh kod tertentu. Baca fail txt dengan pembatas Apabila menggunakan panda untuk membaca fail txt dengan pembatas, anda boleh menggunakan read_c

Mendedahkan kaedah penduaan data yang cekap dalam Pandas: Petua untuk mengalih keluar data pendua dengan cepat Jan 24, 2024 am 08:12 AM

Rahsia kaedah deduplikasi Pandas: cara yang cepat dan cekap untuk menyahduplikasi data, yang memerlukan contoh kod khusus Dalam proses analisis dan pemprosesan data, duplikasi dalam data sering ditemui. Data pendua mungkin mengelirukan keputusan analisis, jadi penduaan adalah langkah yang sangat penting. Pandas, pustaka pemprosesan data yang berkuasa, menyediakan pelbagai kaedah untuk mencapai penyahduplikasian data Artikel ini akan memperkenalkan beberapa kaedah penyahduplikasian yang biasa digunakan, dan melampirkan contoh kod tertentu. Kes penduaan yang paling biasa berdasarkan satu lajur adalah berdasarkan sama ada nilai lajur tertentu diduakan.

Tutorial pemasangan panda mudah: Panduan terperinci tentang cara memasang panda pada sistem pengendalian yang berbeza Feb 21, 2024 pm 06:00 PM

Tutorial pemasangan panda mudah: Panduan terperinci tentang cara memasang panda pada sistem pengendalian yang berbeza, contoh kod khusus diperlukan Memandangkan permintaan untuk pemprosesan dan analisis data terus meningkat, panda telah menjadi salah satu alat pilihan bagi ramai saintis data dan penganalisis. panda ialah pustaka pemprosesan dan analisis data yang berkuasa yang boleh memproses dan menganalisis sejumlah besar data berstruktur dengan mudah. Artikel ini akan memperincikan cara memasang panda pada sistem pengendalian yang berbeza dan memberikan contoh kod khusus. Pasang pada sistem pengendalian Windows

Soalan Lazim untuk panda membaca fail txt Jan 19, 2024 am 09:19 AM

Pandas ialah alat analisis data untuk Python, terutamanya sesuai untuk membersihkan, memproses dan menganalisis data. Semasa proses analisis data, kita selalunya perlu membaca fail data dalam pelbagai format, seperti fail Txt. Walau bagaimanapun, beberapa masalah akan dihadapi semasa operasi tertentu. Artikel ini akan memperkenalkan jawapan kepada soalan biasa tentang membaca fail txt dengan panda dan memberikan contoh kod yang sepadan. Soalan 1: Bagaimana untuk membaca fail txt? fail txt boleh dibaca menggunakan fungsi read_csv() panda. Ini kerana

Bagaimanakah Golang meningkatkan kecekapan pemprosesan data? May 08, 2024 pm 06:03 PM

Golang meningkatkan kecekapan pemprosesan data melalui konkurensi, pengurusan memori yang cekap, struktur data asli dan perpustakaan pihak ketiga yang kaya. Kelebihan khusus termasuk: Pemprosesan selari: Coroutine menyokong pelaksanaan berbilang tugas pada masa yang sama. Pengurusan memori yang cekap: Mekanisme kutipan sampah secara automatik menguruskan memori. Struktur data yang cekap: Struktur data seperti kepingan, peta dan saluran mengakses dan memproses data dengan pantas. Perpustakaan pihak ketiga: meliputi pelbagai perpustakaan pemprosesan data seperti fasthttp dan x/text.

Gunakan Redis untuk meningkatkan kecekapan pemprosesan data aplikasi Laravel Mar 06, 2024 pm 03:45 PM

Gunakan Redis untuk meningkatkan kecekapan pemprosesan data aplikasi Laravel Dengan pembangunan berterusan aplikasi Internet, kecekapan pemprosesan data telah menjadi salah satu fokus pembangun. Apabila membangunkan aplikasi berdasarkan rangka kerja Laravel, kami boleh menggunakan Redis untuk meningkatkan kecekapan pemprosesan data dan mencapai capaian pantas dan caching data. Artikel ini akan memperkenalkan cara menggunakan Redis untuk pemprosesan data dalam aplikasi Laravel dan memberikan contoh kod khusus. 1. Pengenalan kepada Redis Redis ialah data dalam memori berprestasi tinggi

Panduan pemasangan untuk PythonPandas: mudah difahami dan dikendalikan Jan 24, 2024 am 09:39 AM

Panduan pemasangan PythonPandas yang ringkas dan mudah difahami PythonPandas ialah perpustakaan manipulasi dan analisis data yang berkuasa Ia menyediakan struktur data dan alat analisis data yang fleksibel dan mudah digunakan, dan merupakan salah satu alat penting untuk analisis data Python. Artikel ini akan memberikan anda panduan pemasangan PythonPandas yang ringkas dan mudah difahami untuk membantu anda memasang Panda dengan cepat, dan melampirkan contoh kod khusus untuk memudahkan anda memulakan. Memasang Python Sebelum memasang Panda, anda perlu terlebih dahulu

See all articles