Maison > développement back-end > Tutoriel Python > Explorez les techniques de nettoyage et de prétraitement des données à l'aide de pandas

Explorez les techniques de nettoyage et de prétraitement des données à l'aide de pandas

WBOY
Libérer: 2024-01-13 12:49:05
original
727 Les gens l'ont consulté

Explorez les techniques de nettoyage et de prétraitement des données à laide de pandas

Discutez de la méthode de nettoyage et de prétraitement des données à l'aide de pandas

Introduction :
Dans l'analyse des données et l'apprentissage automatique, le nettoyage et le prétraitement des données sont des étapes très importantes. En tant que puissante bibliothèque de traitement de données en Python, pandas possède des fonctions riches et des opérations flexibles, qui peuvent nous aider à nettoyer et prétraiter efficacement les données. Cet article explorera plusieurs méthodes pandas couramment utilisées et fournira des exemples de code correspondants.

1. Lecture des données
Tout d'abord, nous devons lire le fichier de données. pandas fournit de nombreuses fonctions pour lire des fichiers de données dans différents formats, notamment csv, Excel, base de données SQL, etc. En prenant comme exemple la lecture d'un fichier csv, vous pouvez utiliser la fonction read_csv().

import pandas as pd

# 读取csv文件
df = pd.read_csv('data.csv')
Copier après la connexion

2. Observation des données
Avant d'effectuer le nettoyage et le prétraitement des données, nous devons observer la situation globale des données. Pandas fournit quelques méthodes pour afficher rapidement des informations de base sur les données.

  1. Affichez les premières lignes de données.

    df.head()
    Copier après la connexion
  2. Affichez les statistiques de base de vos données.

    df.describe()
    Copier après la connexion
  3. Affichez les noms de colonnes des données.

    df.columns
    Copier après la connexion

3. Gestion des valeurs manquantes
La gestion des valeurs manquantes est une étape importante dans le nettoyage des données, et pandas fournit quelques méthodes pour gérer les valeurs manquantes.

  1. Déterminez les valeurs manquantes.

    df.isnull()
    Copier après la connexion
  2. Supprimez les lignes ou les colonnes contenant des valeurs manquantes.

    # 删除包含缺失值的行
    df.dropna(axis=0)
    
    # 删除包含缺失值的列
    df.dropna(axis=1)
    Copier après la connexion
  3. Remplissage de valeur manquante.

    # 使用指定值填充缺失值
    df.fillna(value)
    
    # 使用均值填充缺失值
    df.fillna(df.mean())
    Copier après la connexion

4. Traitement des valeurs en double
Les valeurs en double interféreront avec l'analyse et la modélisation des données, nous devons donc gérer les valeurs en double.

  1. Déterminez les valeurs en double.

    df.duplicated()
    Copier après la connexion
  2. Supprimez les valeurs en double.

    df.drop_duplicates()
    Copier après la connexion

5. Conversion de données
La conversion de données est une partie importante du prétraitement, et pandas fournit de nombreuses méthodes de conversion de données.

  1. Tri des données.

    # 按某一列升序排序
    df.sort_values(by='column_name')
    
    # 按多列升序排序
    df.sort_values(by=['column1', 'column2'])
    Copier après la connexion
  2. Normalisation des données.

    # 使用最小-最大缩放(Min-Max Scaling)
    df_scaled = (df - df.min()) / (df.max() - df.min())
    Copier après la connexion
  3. Discrétisation des données.

    # 使用等宽离散化(Equal Width Binning)
    df['bin'] = pd.cut(df['column'], bins=5)
    Copier après la connexion

6. Sélection des fonctionnalités
Selon les besoins de la tâche, nous devons sélectionner les fonctionnalités appropriées pour l'analyse et la modélisation. pandas fournit quelques méthodes pour la sélection des fonctionnalités.

  1. Sélectionnez les fonctionnalités par colonne.

    # 根据列名选择特征
    df[['column1', 'column2']]
    
    # 根据列的位置选择特征
    df.iloc[:, 2:4]
    Copier après la connexion
  2. Sélectionnez les fonctionnalités en fonction des conditions.

    # 根据条件选择特征
    df[df['column'] > 0]
    Copier après la connexion

7. Fusion de données
Lorsque nous devons fusionner plusieurs ensembles de données, nous pouvons utiliser la méthode fournie par les pandas pour fusionner.

  1. Fusionner par lignes.

    df1.append(df2)
    Copier après la connexion
  2. Fusionner par colonnes.

    pd.concat([df1, df2], axis=1)
    Copier après la connexion

8. Sauvegarde des données
Enfin, lorsque nous avons terminé le traitement des données, nous pouvons enregistrer les données traitées dans un fichier.

# 保存到csv文件
df.to_csv('processed_data.csv', index=False)

# 保存到Excel文件
df.to_excel('processed_data.xlsx', index=False)
Copier après la connexion

Conclusion :
Cet article présente certaines méthodes courantes de nettoyage et de prétraitement des données à l'aide de pandas, notamment la lecture des données, l'observation des données, le traitement des valeurs manquantes, le traitement des valeurs en double, la transformation des données, la sélection de fonctionnalités, la fusion des données et la sauvegarde des données. Grâce aux fonctions puissantes et aux opérations flexibles de pandas, nous pouvons effectuer efficacement le nettoyage et le prétraitement des données, établissant ainsi une base solide pour l'analyse et la modélisation ultérieures des données. Dans les applications pratiques, les étudiants peuvent choisir des méthodes appropriées en fonction de besoins spécifiques et les utiliser conjointement avec le code réel.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal