Comment lire des fichiers CSV avec Pandas
Présentation :
CSV (Comma-Separated Values) est un format de fichier de feuille de calcul courant qui utilise des virgules ou d'autres caractères spécifiques comme séparateurs pour les valeurs de champ. Pandas est une puissante bibliothèque de traitement de données qui peut facilement lire, traiter et analyser divers fichiers de données, y compris les fichiers CSV. Cet article expliquera comment utiliser la bibliothèque Pandas pour lire des fichiers CSV et donnera des exemples de code spécifiques.
Étapes :
Importez les bibliothèques requises
import pandas as pd
Tout d'abord, nous devons importer la bibliothèque Pandas.
Lire le fichier CSV à l'aide de la fonction read_csv de Pandas
data = pd.read_csv('file_path.csv')
Dans cette étape, nous utilisons la fonction read_csv pour lire le fichier CSV. Vous devez remplacer file_path.csv par le chemin et le nom de votre fichier actuel. Cette fonction chargera le contenu du fichier dans un objet DataFrame nommé data.
Si le séparateur de champ dans le fichier CSV n'est pas une virgule, mais d'autres caractères, vous pouvez utiliser le paramètre sep pour spécifier le séparateur. Par exemple, si le délimiteur est un point-virgule, le code est le suivant :
data = pd.read_csv('file_path.csv', sep=';')
Visualisation des données
print(data.head())
En utilisant la fonction head, nous pouvons imprimer les premières lignes de l'ensemble de données afin de visualiser les données contenu. Le paramètre par défaut de la fonction head est 5, indiquant qu'il faut imprimer les cinq premières lignes de données.
Afficher les dimensions des données (nombre de lignes et de colonnes)
print(data.shape)
L'attribut shape peut renvoyer les informations de dimension du DataFrame, telles que (nombre de lignes, nombre de colonnes). La propriété
Afficher les noms de colonnes
print(data.columns)
columns peut renvoyer la liste des noms de colonnes de DataFrame.
Afficher le résumé statistique des données
print(data.describe())
La fonction de description peut renvoyer les informations récapitulatives statistiques des données, y compris la moyenne, l'écart type, la valeur minimale, la valeur maximale, etc.
Filtrer les données
Par exemple, nous pouvons filtrer les données pour obtenir un sous-ensemble de données dans des conditions spécifiques :
filtered_data = data[data['column_name'] > 10]
Dans l'exemple ci-dessus, nous avons filtré les données avec un nom de colonne « nom_colonne » avec une valeur supérieure à 10. .
Trier les données
sorted_data = data.sort_values(by='column_name', ascending=True)
Avec la fonction sort_values , nous pouvons trier les données, trier en fonction du nom de colonne spécifié et spécifier l'ordre croissant ou décroissant. La fonction
Enregistrer les données
data.to_csv('new_file_path.csv', index=False)
to_csv peut enregistrer l'objet DataFrame en tant que nouveau fichier CSV. Vous devez remplacer new_file_path.csv par le nom du fichier et le chemin que vous souhaitez réellement enregistrer. Le paramètre index=False indique que l'index des données n'est pas enregistré.
Résumé :
Cet article présente les étapes d'utilisation de Pandas pour lire des fichiers CSV et donne des exemples de code spécifiques. Pandas fournit une multitude de fonctions et de méthodes permettant de traiter et d'analyser facilement les données. En utilisant ces fonctionnalités, nous pouvons mieux utiliser les données des fichiers CSV.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!