Cara melakukan prapemprosesan data dan kejuruteraan ciri dalam Python
Prapemprosesan data dan kejuruteraan ciri adalah bahagian yang sangat penting dalam bidang sains data. Prapemprosesan data merujuk kepada pembersihan, mengubah dan menyusun data mentah untuk analisis dan pemodelan selanjutnya. Kejuruteraan ciri merujuk kepada mengekstrak ciri berguna daripada data mentah untuk membantu algoritma pembelajaran mesin lebih memahami data dan meningkatkan prestasi model. Artikel ini akan memperkenalkan teknik biasa dan contoh kod yang berkaitan untuk prapemprosesan data dan kejuruteraan ciri dalam Python.
Pertama, kita perlu memuatkan data ke dalam persekitaran Python. Format data biasa termasuk CSV, Excel, pangkalan data SQL, dsb. Berikut ialah kaedah yang biasa digunakan untuk memuatkan data dalam format CSV menggunakan perpustakaan panda:
import pandas as pd # 读取CSV文件 data = pd.read_csv('data.csv')
Dalam prapemprosesan data, pembersihan data ialah tugas penting. Matlamat utama pembersihan data adalah untuk menangani isu seperti nilai yang hilang, outlier dan nilai pendua. Berikut ialah beberapa kaedah pembersihan data yang biasa digunakan dan contoh kod yang sepadan:
# 检查缺失值 data.isnull().sum() # 填充缺失值 data['column_name'].fillna(data['column_name'].mean(), inplace=True)
# 检查异常值 data['column_name'].describe() # 替换异常值 data['column_name'].replace({-999: np.nan}, inplace=True)
# 删除重复值 data.drop_duplicates(inplace=True)
from sklearn.feature_selection import VarianceThreshold # 设置方差阈值 selector = VarianceThreshold(threshold=0.1) # 进行特征选择 selected_features = selector.fit_transform(data)
# 计算特征之间的相关系数 correlation_matrix = data.corr() # 筛选相关性较高的特征 highly_correlated_features = correlation_matrix[correlation_matrix > 0.8].dropna(axis=0).index selected_features = data[highly_correlated_features]
from sklearn.feature_extraction.text import CountVectorizer # 实例化文本特征提取器 text_vectorizer = CountVectorizer() # 提取文本特征 text_features = text_vectorizer.fit_transform(data['text_column'])
Atas ialah kandungan terperinci Bagaimana untuk melakukan prapemprosesan data dan kejuruteraan ciri dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!