Rumah pembangunan bahagian belakang Tutorial Python Mendedahkan kaedah penduaan data yang cekap dalam Pandas: Petua untuk mengalih keluar data pendua dengan cepat

Mendedahkan kaedah penduaan data yang cekap dalam Pandas: Petua untuk mengalih keluar data pendua dengan cepat

Jan 24, 2024 am 08:12 AM
data pandas Alih keluar pendua

Mendedahkan kaedah penduaan data yang cekap dalam Pandas: Petua untuk mengalih keluar data pendua dengan cepat

Kaedah penyahduplikasian Panda didedahkan: kaedah penyahduplikasian data yang pantas dan cekap memerlukan contoh kod khusus

Dalam proses analisis dan pemprosesan data, pertindihan dalam data sering ditemui. Data pendua mungkin mengelirukan keputusan analisis, jadi penduaan adalah langkah yang sangat penting. Pandas, pustaka pemprosesan data yang berkuasa, menyediakan pelbagai kaedah untuk mencapai penyahduplikasian data Artikel ini akan memperkenalkan beberapa kaedah penyahduplikasian yang biasa digunakan, dan melampirkan contoh kod tertentu.

  1. Berdasarkan penduaan lajur tunggal

Situasi yang paling biasa ialah menyahganda berdasarkan sama ada nilai lajur tertentu diulang. Dalam Pandas, anda boleh menggunakan kaedah .duplicated() untuk menentukan sama ada nilai lajur diduplikasi, dan kemudian gunakan kaedah .drop_duplicates() untuk mengalih keluar nilai pendua. .duplicated()方法来判断某一列的值是否重复,然后使用.drop_duplicates()方法来去除重复值。

例如,我们有一个包含了学生信息的DataFrame,其中有一个列是学生的学号,我们希望根据学号去除重复的行:

import pandas as pd

data = {'学号': [1001, 1002, 1003, 1002, 1004, 1003],
        '姓名': ['张三', '李四', '王五', '李四', '赵六', '王五'],
        '年龄': [18, 19, 20, 19, 21, 20]}

df = pd.DataFrame(data)

df.drop_duplicates(subset='学号', inplace=True)
print(df)
Salin selepas log masuk

运行结果:

    学号  姓名  年龄
0  1001  张三  18
1  1002  李四  19
2  1003  王五  20
4  1004  赵六  21
Salin selepas log masuk
Salin selepas log masuk

这样就去除了学号重复的行,只保留了第一次出现的行。

  1. 基于多列去重

有时候我们需要根据多个列的值是否重复来进行去重。在.drop_duplicates()方法中可以通过subset参数指定要根据哪些列进行去重。

例如,我们还是使用上面的学生信息的DataFrame,现在根据学号和姓名去除重复的行:

import pandas as pd

data = {'学号': [1001, 1002, 1003, 1002, 1004, 1003],
        '姓名': ['张三', '李四', '王五', '李四', '赵六', '王五'],
        '年龄': [18, 19, 20, 19, 21, 20]}

df = pd.DataFrame(data)

df.drop_duplicates(subset=['学号', '姓名'], inplace=True)
print(df)
Salin selepas log masuk

运行结果:

    学号  姓名  年龄
0  1001  张三  18
1  1002  李四  19
2  1003  王五  20
4  1004  赵六  21
Salin selepas log masuk
Salin selepas log masuk

这样就根据学号和姓名同时去除了重复的行。

  1. 基于所有列去重

有时候我们希望根据整个DataFrame的所有列的值是否重复来进行去重。可以使用.duplicated()方法的keep参数设置为False,则会标记所有重复的行。然后使用.drop_duplicates()

Sebagai contoh, kami mempunyai DataFrame yang mengandungi maklumat pelajar, dan salah satu lajur ialah nombor pelajar Kami berharap dapat mengalih keluar baris pendua berdasarkan nombor pelajar:

import pandas as pd

data = {'学号': [1001, 1002, 1003, 1002, 1004, 1003],
        '姓名': ['张三', '李四', '王五', '李四', '赵六', '王五'],
        '年龄': [18, 19, 20, 19, 21, 20]}

df = pd.DataFrame(data)

df.drop_duplicates(keep=False, inplace=True)
print(df)
Salin selepas log masuk

Hasil berjalan:

    学号  姓名  年龄
0  1001  张三  18
4  1004  赵六  21
Salin selepas log masuk
Ini menghapuskan nombor pelajar pendua. daripada baris, hanya kejadian pertama baris itu dikekalkan.

    Penyahduplikasi berdasarkan berbilang lajur

    Kadangkala kita perlu menyahduplikasi berdasarkan sama ada nilai ​​​​bagi berbilang lajur diulang. Dalam kaedah .drop_duplicates(), anda boleh menggunakan parameter subset untuk menentukan lajur yang harus digunakan untuk penyahduaan.

    Sebagai contoh, kami masih menggunakan DataFrame maklumat pelajar di atas, dan kini mengalih keluar baris pendua berdasarkan ID dan nama pelajar:

    rrreee🎜Hasil jalankan: 🎜rrreee🎜Dengan cara ini, baris pendua dialih keluar berdasarkan ID dan nama pelajar pada masa yang sama. 🎜
      🎜Penyahduplikasi berdasarkan semua lajur🎜🎜🎜Kadangkala kami ingin menyahduplikasi berdasarkan sama ada nilai semua lajur dalam keseluruhan DataFrame diulang. Anda boleh menggunakan kaedah .duplicated() untuk menetapkan parameter keep kepada False dan semua baris pendua akan ditanda. Kemudian gunakan kaedah .drop_duplicates() untuk mengalih keluar baris pendua ini. 🎜🎜Sebagai contoh, kami masih menggunakan DataFrame maklumat pelajar di atas, dan kini mengalih keluar baris pendua berdasarkan semua lajur keseluruhan DataFrame: 🎜rrreee🎜Hasil jalankan: 🎜rrreee🎜Dengan cara ini, semua baris pendua dalam keseluruhan DataFrame dialih keluar . 🎜🎜Ringkasan: 🎜🎜Artikel ini memperkenalkan tiga kaedah penyahduplikasian yang biasa digunakan dalam Panda: penyahduplikasian berdasarkan satu lajur, penyahduplikasian berdasarkan berbilang lajur dan penyahduplikasian berdasarkan semua lajur. Pilih kaedah yang sesuai mengikut keperluan sebenar untuk membuang data pendua dengan cepat dan cekap. Dalam aplikasi praktikal, kaedah ini boleh digunakan secara fleksibel mengikut data tertentu dan keperluan untuk meningkatkan kecekapan pemprosesan dan analisis data. 🎜🎜Di atas adalah keseluruhan kandungan artikel ini, saya harap pembaca dapat memanfaatkannya dan dapat menggunakan Panda dengan lebih baik untuk deduplikasi data. 🎜

Atas ialah kandungan terperinci Mendedahkan kaedah penduaan data yang cekap dalam Pandas: Petua untuk mengalih keluar data pendua dengan cepat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Gunakan ddrescue untuk memulihkan data pada Linux Gunakan ddrescue untuk memulihkan data pada Linux Mar 20, 2024 pm 01:37 PM

DDREASE ialah alat untuk memulihkan data daripada fail atau peranti sekat seperti cakera keras, SSD, cakera RAM, CD, DVD dan peranti storan USB. Ia menyalin data dari satu peranti blok ke peranti lain, meninggalkan blok data yang rosak dan hanya memindahkan blok data yang baik. ddreasue ialah alat pemulihan yang berkuasa yang automatik sepenuhnya kerana ia tidak memerlukan sebarang gangguan semasa operasi pemulihan. Selain itu, terima kasih kepada fail peta ddasue, ia boleh dihentikan dan disambung semula pada bila-bila masa. Ciri-ciri utama lain DDREASE adalah seperti berikut: Ia tidak menimpa data yang dipulihkan tetapi mengisi jurang sekiranya pemulihan berulang. Walau bagaimanapun, ia boleh dipotong jika alat itu diarahkan untuk melakukannya secara eksplisit. Pulihkan data daripada berbilang fail atau blok kepada satu

Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Apr 03, 2024 pm 12:04 PM

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Cara menggunakan fungsi penapis Excel dengan berbilang syarat Cara menggunakan fungsi penapis Excel dengan berbilang syarat Feb 26, 2024 am 10:19 AM

Jika anda perlu tahu cara menggunakan penapisan dengan berbilang kriteria dalam Excel, tutorial berikut akan membimbing anda melalui langkah-langkah untuk memastikan anda boleh menapis dan mengisih data anda dengan berkesan. Fungsi penapisan Excel sangat berkuasa dan boleh membantu anda mengekstrak maklumat yang anda perlukan daripada sejumlah besar data. Fungsi ini boleh menapis data mengikut syarat yang anda tetapkan dan memaparkan hanya bahagian yang memenuhi syarat, menjadikan pengurusan data lebih cekap. Dengan menggunakan fungsi penapis, anda boleh mencari data sasaran dengan cepat, menjimatkan masa dalam mencari dan menyusun data. Fungsi ini bukan sahaja boleh digunakan pada senarai data ringkas, tetapi juga boleh ditapis berdasarkan berbilang syarat untuk membantu anda mencari maklumat yang anda perlukan dengan lebih tepat. Secara keseluruhan, fungsi penapisan Excel adalah sangat berguna

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Kelajuan Internet Data Selular Perlahan pada iPhone: Pembetulan Kelajuan Internet Data Selular Perlahan pada iPhone: Pembetulan May 03, 2024 pm 09:01 PM

Menghadapi ketinggalan, sambungan data mudah alih perlahan pada iPhone? Biasanya, kekuatan internet selular pada telefon anda bergantung pada beberapa faktor seperti rantau, jenis rangkaian selular, jenis perayauan, dsb. Terdapat beberapa perkara yang boleh anda lakukan untuk mendapatkan sambungan Internet selular yang lebih pantas dan boleh dipercayai. Betulkan 1 – Paksa Mulakan Semula iPhone Kadangkala, paksa memulakan semula peranti anda hanya menetapkan semula banyak perkara, termasuk sambungan selular. Langkah 1 – Hanya tekan kekunci naikkan kelantangan sekali dan lepaskan. Seterusnya, tekan kekunci Turun Kelantangan dan lepaskannya semula. Langkah 2 - Bahagian seterusnya proses adalah untuk menahan butang di sebelah kanan. Biarkan iPhone selesai dimulakan semula. Dayakan data selular dan semak kelajuan rangkaian. Semak semula Betulkan 2 – Tukar mod data Walaupun 5G menawarkan kelajuan rangkaian yang lebih baik, ia berfungsi lebih baik apabila isyarat lemah

Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Apr 29, 2024 pm 06:55 PM

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Robot pertama yang menyelesaikan tugas manusia secara autonomi muncul, dengan lima jari fleksibel dan kelajuan manusia luar biasa, dan model besar menyokong latihan angkasa maya Robot pertama yang menyelesaikan tugas manusia secara autonomi muncul, dengan lima jari fleksibel dan kelajuan manusia luar biasa, dan model besar menyokong latihan angkasa maya Mar 11, 2024 pm 12:10 PM

Minggu ini, FigureAI, sebuah syarikat robotik yang dilaburkan oleh OpenAI, Microsoft, Bezos, dan Nvidia, mengumumkan bahawa ia telah menerima hampir $700 juta dalam pembiayaan dan merancang untuk membangunkan robot humanoid yang boleh berjalan secara bebas dalam tahun hadapan. Dan Optimus Prime Tesla telah berulang kali menerima berita baik. Tiada siapa yang meragui bahawa tahun ini akan menjadi tahun apabila robot humanoid meletup. SanctuaryAI, sebuah syarikat robotik yang berpangkalan di Kanada, baru-baru ini mengeluarkan robot humanoid baharu, Phoenix. Pegawai mendakwa bahawa ia boleh menyelesaikan banyak tugas secara autonomi pada kelajuan yang sama seperti manusia. Pheonix, robot pertama di dunia yang boleh menyelesaikan tugas secara autonomi pada kelajuan manusia, boleh mencengkam, menggerakkan dan meletakkan setiap objek secara elegan di sisi kiri dan kanannya dengan perlahan. Ia boleh mengenal pasti objek secara autonomi

Tentera Udara A.S. mempamerkan jet pejuang AI pertamanya dengan profil tinggi! Menteri secara peribadi menjalankan pandu uji tanpa campur tangan semasa keseluruhan proses, dan 100,000 baris kod telah diuji selama 21 kali. Tentera Udara A.S. mempamerkan jet pejuang AI pertamanya dengan profil tinggi! Menteri secara peribadi menjalankan pandu uji tanpa campur tangan semasa keseluruhan proses, dan 100,000 baris kod telah diuji selama 21 kali. May 07, 2024 pm 05:00 PM

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,

See all articles