Comment effectuer le prétraitement des données et l'ingénierie des fonctionnalités en Python
Le prétraitement des données et l'ingénierie des fonctionnalités sont une partie très importante du domaine de la science des données. Le prétraitement des données fait référence au nettoyage, à la transformation et à l'organisation des données brutes pour une analyse et une modélisation plus approfondies. L'ingénierie des fonctionnalités fait référence à l'extraction de fonctionnalités utiles à partir de données brutes pour aider les algorithmes d'apprentissage automatique à mieux comprendre les données et à améliorer les performances du modèle. Cet article présentera des techniques courantes et des exemples de code associés pour le prétraitement des données et l'ingénierie des fonctionnalités en Python.
Tout d'abord, nous devons charger les données dans l'environnement Python. Les formats de données courants incluent CSV, Excel, base de données SQL, etc. Voici une méthode couramment utilisée pour charger des données au format CSV à l'aide de la bibliothèque pandas :
import pandas as pd # 读取CSV文件 data = pd.read_csv('data.csv')
Dans le prétraitement des données, le nettoyage des données est une tâche importante. L'objectif principal du nettoyage des données est de traiter les problèmes tels que les valeurs manquantes, les valeurs aberrantes et les valeurs en double. Voici quelques méthodes de nettoyage de données couramment utilisées et des exemples de code correspondant :
# 检查缺失值 data.isnull().sum() # 填充缺失值 data['column_name'].fillna(data['column_name'].mean(), inplace=True)
# 检查异常值 data['column_name'].describe() # 替换异常值 data['column_name'].replace({-999: np.nan}, inplace=True)
# 删除重复值 data.drop_duplicates(inplace=True)
Dans l'ingénierie des fonctionnalités, nous avons besoin pour sélectionner les fonctionnalités qui ont la plus grande influence sur la variable cible. Cela contribue à améliorer la précision et l’efficacité du modèle. Voici quelques méthodes de sélection de fonctionnalités couramment utilisées et des exemples de code correspondants :
from sklearn.feature_selection import VarianceThreshold # 设置方差阈值 selector = VarianceThreshold(threshold=0.1) # 进行特征选择 selected_features = selector.fit_transform(data)
# 计算特征之间的相关系数 correlation_matrix = data.corr() # 筛选相关性较高的特征 highly_correlated_features = correlation_matrix[correlation_matrix > 0.8].dropna(axis=0).index selected_features = data[highly_correlated_features]
L'extraction de fonctionnalités consiste à extraire de nouvelles fonctionnalités des données d'origine pour aider la machine. les algorithmes d’apprentissage comprennent mieux les données. Voici quelques méthodes d'extraction de fonctionnalités couramment utilisées et des exemples de code correspondants :
from sklearn.feature_extraction.text import CountVectorizer # 实例化文本特征提取器 text_vectorizer = CountVectorizer() # 提取文本特征 text_features = text_vectorizer.fit_transform(data['text_column'])
import cv2 # 读取图像 image = cv2.imread('image.jpg') # 提取图像特征 image_features = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
# 转换时间格式 data['timestamp'] = pd.to_datetime(data['timestamp']) # 提取时间序列特征 data['year'] = data['timestamp'].dt.year data['month'] = data['timestamp'].dt.month
Grâce aux étapes de prétraitement des données et d'ingénierie de fonctionnalités ci-dessus , nous pouvons convertir les données brutes sous une forme que les algorithmes d’apprentissage automatique peuvent comprendre et traiter. Ces étapes jouent un rôle crucial dans la création de modèles d’apprentissage automatique hautes performances. J'espère que le contenu de cet article sera utile à votre étude et à votre pratique.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!