Pengecualian Outlier dalam Pandas DataFrames: Mengesan dan Mengalih Keluar Anomali Data
Dalam analisis data, outlier boleh memesongkan keputusan dan tafsiran condong. Untuk mengurangkan isu ini, adalah penting untuk mengesan dan mengecualikan outlier daripada set data. Artikel ini menunjukkan kaedah elegan untuk pengecualian terpencil dalam DataFrames panda menggunakan fungsi scipy.stats.zscore.
Andaikan anda mempunyai DataFrame dengan berbilang lajur, salah satunya (bernama "Jilid") mengandungi nilai dengan jelas outlier (cth., 4000 manakala kebanyakan nilai adalah sekitar 1200). Untuk mengalih keluar baris dengan outlier sedemikian dalam lajur tertentu, ikut langkah berikut:
Menggunakan scipy.stats.zscore untuk Pengesanan Outlier
Import perlu perpustakaan:
import pandas as pd import numpy as np from scipy import stats
Kira skor Z untuk lajur yang lebih mudah terdedah:
df["Vol_zscore"] = stats.zscore(df["Vol"])
Buat syarat untuk mengenal pasti baris dalam tiga sisihan piawai daripada min:
mask = np.abs(df["Vol_zscore"]) < 3
Gunakan syarat untuk menapis DataFrame dan mengalih keluar baris terpencil:
filtered_df = df[mask]
Dengan menggunakan langkah ini, anda boleh mengesan dan mengecualikan baris yang mengandungi outlier dalam lajur khusus Pandas DataFrame anda dengan cekap. Kaedah ini membolehkan anda mengalih keluar anomali yang berkemungkinan berat sebelah analisis data anda dan memastikan hasil yang lebih tepat dan boleh dipercayai.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengeluarkan Outlier dengan Cekap daripada Lajur DataFrame Pandas?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!