Méthode d'analyse de données Pandas en pratique : du chargement des données à l'ingénierie des fonctionnalités, des exemples de code spécifiques sont nécessaires
Introduction :
Pandas est une bibliothèque d'analyse de données largement utilisée en Python, fournissant une multitude d'outils de traitement et d'analyse de données. Cet article présentera la méthode spécifique du chargement des données à l'ingénierie des fonctionnalités et fournira des exemples de code pertinents.
1. Chargement des données
Le chargement des données est la première étape de l'analyse des données. Dans Pandas, vous pouvez utiliser diverses méthodes pour charger des données, notamment la lecture de fichiers locaux, la lecture de données réseau, la lecture de bases de données, etc.
- Lire les fichiers locaux
Utilisez la fonction read_csv() de Pandas pour lire facilement les fichiers CSV locaux. Voici un exemple :
import pandas as pd
data = pd.read_csv("data.csv")
Copier après la connexion
- Lecture des données réseau
Pandas fournit également la fonction de lecture des données réseau. Vous pouvez utiliser la fonction read_csv() et transmettre l'adresse réseau en paramètre. L'exemple est le suivant :
import pandas as pd
url = "https://www.example.com/data.csv"
data = pd.read_csv(url)
Copier après la connexion
- Lecture de la base de données
Si les données sont stockées dans la base de données, vous pouvez utiliser la fonction read_sql(). fourni par Pandas pour le lire. Tout d'abord, vous devez utiliser la bibliothèque SQLAlchemy de Python pour vous connecter à la base de données, puis utiliser la fonction read_sql() de Pandas pour lire les données. Voici un exemple :
import pandas as pd
from sqlalchemy import create_engine
engine = create_engine('sqlite:///database.db')
data = pd.read_sql("SELECT * FROM table", engine)
Copier après la connexion
2. Aperçu et traitement des données
Après le chargement des données, vous pouvez utiliser les méthodes fournies par Pandas pour prévisualiser et traiter préliminairement les données.
- Aperçu des données
Vous pouvez utiliser les méthodes head() et tail() pour prévisualiser les première et dernière lignes de données. Par exemple :
data.head() # 预览前5行
data.tail(10) # 预览后10行
Copier après la connexion
- Data Cleaning
Le nettoyage des données est l'une des étapes importantes de l'analyse des données. Pandas fournit une série de méthodes pour gérer les valeurs manquantes, les valeurs en double et les valeurs aberrantes.
- Gestion des valeurs manquantes
Vous pouvez utiliser la fonction isnull() pour déterminer si les données constituent une valeur manquante, puis utiliser la méthode fillna() pour remplir les valeurs manquantes. Voici un exemple :
data.isnull() # 判断缺失值
data.fillna(0) # 填充缺失值为0
Copier après la connexion
- Gestion des valeurs en double
Utilisez la méthode duplicated() pour déterminer si les données sont une valeur en double, puis utilisez la méthode drop_duplicates() pour supprimer les valeurs en double. L'exemple de code est le suivant :
data.duplicated() # 判断重复值
data.drop_duplicates() # 去除重复值
Copier après la connexion
- Gestion des valeurs aberrantes
Pour les valeurs aberrantes, vous pouvez utiliser un jugement conditionnel et des opérations d'indexation pour les traiter. Voici un exemple :
data[data['column'] > 100] = 100 # 将大于100的值设为100
Copier après la connexion
3. Ingénierie des fonctionnalités
L'ingénierie des fonctionnalités est une étape clé de l'analyse des données. En transformant les données brutes en fonctionnalités plus adaptées à la modélisation, les performances du modèle peuvent être améliorées. Pandas fournit plusieurs méthodes pour l'ingénierie des fonctionnalités.
- Sélection des fonctionnalités
Vous pouvez utiliser les opérations de colonne Pandas et le jugement conditionnel pour sélectionner des fonctionnalités spécifiques. Voici un exemple :
selected_features = data[['feature1', 'feature2']]
Copier après la connexion
- Feature Encoding
Avant la modélisation, les fonctionnalités doivent être transformées en une forme qui peut être traitée par des algorithmes d'apprentissage automatique. Pandas fournit la méthode get_dummies() pour un encodage à chaud. Voici un exemple :
encoded_data = pd.get_dummies(data)
Copier après la connexion
- Feature Scaling
Pour les fonctionnalités numériques, vous pouvez utiliser la méthode MinMaxScaler() ou StandardScaler() de Pandas pour la mise à l'échelle des fonctionnalités. L'exemple de code est le suivant :
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaled_data = scaler.fit_transform(data)
Copier après la connexion
- Construction de fonctionnalités
De nouvelles fonctionnalités peuvent être construites en effectuant des opérations et des combinaisons de base sur les fonctionnalités d'origine. L'exemple de code est le suivant :
data['new_feature'] = data['feature1'] + data['feature2']
Copier après la connexion
Conclusion :
Cet article présente la méthode du chargement des données à l'ingénierie des fonctionnalités dans l'analyse des données Pandas, et démontre les opérations associées à travers des exemples de code spécifiques. Grâce aux puissantes fonctions de traitement et d'analyse des données de Pandas, nous pouvons effectuer l'analyse et l'exploration des données plus efficacement. Dans les applications pratiques, différentes opérations et méthodes peuvent être sélectionnées en fonction de besoins spécifiques pour améliorer la précision et l'effet de l'analyse des données.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!