Rumah > pembangunan bahagian belakang > Tutorial Python > Bagaimanakah Saya Boleh Mengeluarkan Outlier dengan Cekap daripada Lajur DataFrame Pandas?

Bagaimanakah Saya Boleh Mengeluarkan Outlier dengan Cekap daripada Lajur DataFrame Pandas?

Linda Hamilton
Lepaskan: 2024-12-06 11:56:11
asal
446 orang telah melayarinya

How Can I Efficiently Remove Outliers from a Pandas DataFrame Column?

Pengecualian Outlier dalam Pandas DataFrames: Mengesan dan Mengalih Keluar Anomali Data

Dalam analisis data, outlier boleh memesongkan keputusan dan tafsiran condong. Untuk mengurangkan isu ini, adalah penting untuk mengesan dan mengecualikan outlier daripada set data. Artikel ini menunjukkan kaedah elegan untuk pengecualian terpencil dalam DataFrames panda menggunakan fungsi scipy.stats.zscore.

Andaikan anda mempunyai DataFrame dengan berbilang lajur, salah satunya (bernama "Jilid") mengandungi nilai dengan jelas outlier (cth., 4000 manakala kebanyakan nilai adalah sekitar 1200). Untuk mengalih keluar baris dengan outlier sedemikian dalam lajur tertentu, ikut langkah berikut:

Menggunakan scipy.stats.zscore untuk Pengesanan Outlier

  1. Import perlu perpustakaan:

    import pandas as pd
    import numpy as np
    from scipy import stats
    Salin selepas log masuk
  2. Kira skor Z untuk lajur yang lebih mudah terdedah:

    df["Vol_zscore"] = stats.zscore(df["Vol"])
    Salin selepas log masuk
  3. Buat syarat untuk mengenal pasti baris dalam tiga sisihan piawai daripada min:

    mask = np.abs(df["Vol_zscore"]) < 3
    Salin selepas log masuk
  4. Gunakan syarat untuk menapis DataFrame dan mengalih keluar baris terpencil:

    filtered_df = df[mask]
    Salin selepas log masuk

Dengan menggunakan langkah ini, anda boleh mengesan dan mengecualikan baris yang mengandungi outlier dalam lajur khusus Pandas DataFrame anda dengan cekap. Kaedah ini membolehkan anda mengalih keluar anomali yang berkemungkinan berat sebelah analisis data anda dan memastikan hasil yang lebih tepat dan boleh dipercayai.

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengeluarkan Outlier dengan Cekap daripada Lajur DataFrame Pandas?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan