Kemahiran pembersihan data peringkat profesional: amalan aplikasi panda
Pengenalan:
Dengan kemunculan era data besar, pengumpulan dan pemprosesan data telah menjadi tugas penting dalam pelbagai industri. Walau bagaimanapun, selalunya terdapat pelbagai masalah dalam data asal, seperti nilai hilang, outlier, nilai pendua, dsb. Untuk menganalisis data dengan tepat dan berkesan, kita perlu membersihkan data mentah. Dalam proses pembersihan data, panda ialah perpustakaan Python yang berkuasa yang menyediakan fungsi yang kaya dan operasi yang fleksibel, yang boleh membantu kami memproses set data dengan cekap. Artikel ini akan memperkenalkan beberapa teknik pembersihan data biasa dan menggabungkannya dengan contoh kod khusus untuk menunjukkan amalan aplikasi panda.
1. Muatkan data
Pertama, kita perlu memuatkan data daripada fail luaran. panda menyokong berbilang format data, seperti CSV, Excel, SQL, dll. Berikut ialah contoh kod untuk memuatkan fail CSV:
import pandas as pd # 读取CSV文件 data = pd.read_csv("data.csv")
2. Lihat data
Sebelum membersihkan data, kita harus melihat keadaan keseluruhan data terlebih dahulu untuk memahami struktur dan ciri set data. panda menyediakan pelbagai kaedah untuk melihat data, seperti head()
、tail()
、info()
、describe()
, dsb. Berikut ialah contoh kod untuk melihat data:
# 查看前几行数据 print(data.head()) # 查看后几行数据 print(data.tail()) # 查看数据的详细信息 print(data.info()) # 查看数据的统计描述 print(data.describe())
3. Mengendalikan nilai yang hilang
Nilai yang hilang adalah salah satu masalah yang biasa dihadapi dalam proses pembersihan data. panda menyediakan beberapa kaedah untuk mengendalikan nilai yang hilang. Berikut ialah beberapa kaedah dan kod sampel yang biasa digunakan:
# 删除包含缺失值的行 data.dropna(axis=0, inplace=True) # 删除包含缺失值的列 data.dropna(axis=1, inplace=True)
# 用指定值填充缺失值 data.fillna(value=0, inplace=True) # 用平均值填充缺失值 data.fillna(data.mean(), inplace=True)
Keempat, berurusan dengan outlier
mungkin memberi kesan yang serius terhadap analisis mereka perlu diproses berurusan dengan. panda menyediakan beberapa kaedah untuk mengendalikan outlier. Berikut ialah beberapa kaedah dan kod sampel yang biasa digunakan:
# 删除大于或小于指定阈值的异常值 data = data[(data["column"] >= threshold1) & (data["column"] <= threshold2)]
# 将大于或小于指定阈值的异常值替换为指定值 data["column"] = data["column"].apply(lambda x: replace_value if x > threshold else x)
5. Proses nilai pendua
menduakan hasil analisis kepada nilai tidak jadi perlu diuruskan. panda menyediakan pelbagai cara untuk mengendalikan nilai pendua. Berikut adalah beberapa kaedah dan kod sampel yang biasa digunakan:
# 删除完全重复的行 data.drop_duplicates(inplace=True) # 删除指定列中的重复值 data.drop_duplicates(subset=["column"], inplace=True)
# 查找完全重复的行 duplicates = data[data.duplicated()] # 查找指定列中的重复值 duplicates = data[data.duplicated(subset=["column"])]
6. Penukaran jenis data
Dalam proses pembersihan data, kita sering memerlukan proses pembersihan data. jenis data Tukar untuk analisis seterusnya. Pandas menyediakan pelbagai kaedah untuk penukaran jenis data. Berikut ialah beberapa kaedah dan kod sampel yang biasa digunakan:
# 将列的数据类型转换为整型 data["column"] = data["column"].astype(int) # 将列的数据类型转换为日期时间类型 data["column"] = pd.to_datetime(data["column"]) # 将列的数据类型转换为分类类型 data["column"] = data["column"].astype("category")
Kesimpulan:
Artikel ini memperkenalkan beberapa teknik pembersihan data biasa, dan menunjukkan amalan aplikasi panda dengan contoh kod khusus. Dalam kerja pembersihan data sebenar, kita boleh memilih kaedah yang sesuai berdasarkan keperluan khusus dan ciri data. Saya harap artikel ini dapat membantu pembaca mempelajari dan mengamalkan pembersihan data.
Atas ialah kandungan terperinci Ketahui cara menggunakan panda untuk pembersihan data gred profesional. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!