Ketahui cara menggunakan panda untuk pembersihan data gred profesional

WBOY
Lepaskan: 2024-01-24 08:10:07
asal
517 orang telah melayarinya

Ketahui cara menggunakan panda untuk pembersihan data gred profesional

Kemahiran pembersihan data peringkat profesional: amalan aplikasi panda

Pengenalan:

Dengan kemunculan era data besar, pengumpulan dan pemprosesan data telah menjadi tugas penting dalam pelbagai industri. Walau bagaimanapun, selalunya terdapat pelbagai masalah dalam data asal, seperti nilai hilang, outlier, nilai pendua, dsb. Untuk menganalisis data dengan tepat dan berkesan, kita perlu membersihkan data mentah. Dalam proses pembersihan data, panda ialah perpustakaan Python yang berkuasa yang menyediakan fungsi yang kaya dan operasi yang fleksibel, yang boleh membantu kami memproses set data dengan cekap. Artikel ini akan memperkenalkan beberapa teknik pembersihan data biasa dan menggabungkannya dengan contoh kod khusus untuk menunjukkan amalan aplikasi panda.

1. Muatkan data

Pertama, kita perlu memuatkan data daripada fail luaran. panda menyokong berbilang format data, seperti CSV, Excel, SQL, dll. Berikut ialah contoh kod untuk memuatkan fail CSV:

import pandas as pd

# 读取CSV文件
data = pd.read_csv("data.csv")
Salin selepas log masuk

2. Lihat data

Sebelum membersihkan data, kita harus melihat keadaan keseluruhan data terlebih dahulu untuk memahami struktur dan ciri set data. panda menyediakan pelbagai kaedah untuk melihat data, seperti head()tail()info()describe(), dsb. Berikut ialah contoh kod untuk melihat data:

# 查看前几行数据
print(data.head())

# 查看后几行数据
print(data.tail())

# 查看数据的详细信息
print(data.info())

# 查看数据的统计描述
print(data.describe())
Salin selepas log masuk

3. Mengendalikan nilai yang hilang

Nilai yang hilang adalah salah satu masalah yang biasa dihadapi dalam proses pembersihan data. panda menyediakan beberapa kaedah untuk mengendalikan nilai yang hilang. Berikut ialah beberapa kaedah dan kod sampel yang biasa digunakan:

  1. Padamkan nilai yang hilang:
# 删除包含缺失值的行
data.dropna(axis=0, inplace=True)

# 删除包含缺失值的列
data.dropna(axis=1, inplace=True)
Salin selepas log masuk
  1. Isi nilai yang hilang:
# 用指定值填充缺失值
data.fillna(value=0, inplace=True)

# 用平均值填充缺失值
data.fillna(data.mean(), inplace=True)
Salin selepas log masuk

Keempat, berurusan dengan outlier

mungkin memberi kesan yang serius terhadap analisis mereka perlu diproses berurusan dengan. panda menyediakan beberapa kaedah untuk mengendalikan outlier. Berikut ialah beberapa kaedah dan kod sampel yang biasa digunakan:

  1. Padamkan outlier:
# 删除大于或小于指定阈值的异常值
data = data[(data["column"] >= threshold1) & (data["column"] <= threshold2)]
Salin selepas log masuk
  1. Ganti outlier:
# 将大于或小于指定阈值的异常值替换为指定值
data["column"] = data["column"].apply(lambda x: replace_value if x > threshold else x)
Salin selepas log masuk

5. Proses nilai pendua ​​

menduakan hasil analisis kepada nilai tidak jadi perlu diuruskan. panda menyediakan pelbagai cara untuk mengendalikan nilai pendua. Berikut adalah beberapa kaedah dan kod sampel yang biasa digunakan:

  1. Padamkan nilai pendua:
# 删除完全重复的行
data.drop_duplicates(inplace=True)

# 删除指定列中的重复值
data.drop_duplicates(subset=["column"], inplace=True)
Salin selepas log masuk
  1. Cari nilai pendua:
# 查找完全重复的行
duplicates = data[data.duplicated()]

# 查找指定列中的重复值
duplicates = data[data.duplicated(subset=["column"])]
Salin selepas log masuk

6. Penukaran jenis data

Dalam proses pembersihan data, kita sering memerlukan proses pembersihan data. jenis data Tukar untuk analisis seterusnya. Pandas menyediakan pelbagai kaedah untuk penukaran jenis data. Berikut ialah beberapa kaedah dan kod sampel yang biasa digunakan:

# 将列的数据类型转换为整型
data["column"] = data["column"].astype(int)

# 将列的数据类型转换为日期时间类型
data["column"] = pd.to_datetime(data["column"])

# 将列的数据类型转换为分类类型
data["column"] = data["column"].astype("category")
Salin selepas log masuk

Kesimpulan:

Artikel ini memperkenalkan beberapa teknik pembersihan data biasa, dan menunjukkan amalan aplikasi panda dengan contoh kod khusus. Dalam kerja pembersihan data sebenar, kita boleh memilih kaedah yang sesuai berdasarkan keperluan khusus dan ciri data. Saya harap artikel ini dapat membantu pembaca mempelajari dan mengamalkan pembersihan data.

Atas ialah kandungan terperinci Ketahui cara menggunakan panda untuk pembersihan data gred profesional. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan