Comment lire un fichier CSV avec des pandas

小老鼠
Libérer: 2023-12-01 16:18:08
original
2815 Les gens l'ont consulté

Les méthodes pour lire les fichiers CSV incluent l'utilisation de la fonction read_csv(), la spécification de délimiteurs, la spécification de noms de colonnes, le saut de lignes, la gestion des valeurs manquantes, les types de données personnalisés, etc. Introduction détaillée : 1. La fonction read_csv() est la méthode la plus couramment utilisée pour lire des fichiers CSV dans Pandas. Il peut charger des données CSV à partir du système de fichiers local ou d'une URL distante et renvoyer un objet DataFrame ; 2. Spécifiez le délimiteur par défaut, la fonction read_csv() utilisera des virgules comme délimiteur pour les fichiers CSV, etc.

Comment lire un fichier CSV avec des pandas

Le système d'exploitation de ce tutoriel : système Windows 10, Python version 3.11.4, ordinateur Dell G3.

Pandas est un puissant outil de traitement et d'analyse de données largement utilisé dans les domaines de la science des données et de l'apprentissage automatique. Il fournit de nombreuses méthodes puissantes mais faciles à utiliser pour lire et traiter différents types de fichiers de données. Parmi eux, la lecture et le traitement des fichiers CSV sont une fonction importante de Pandas.

Méthodes et techniques de lecture courantes

Tout d'abord, nous devons installer la bibliothèque Pandas. Pandas peut être installé en exécutant la commande suivante dans le terminal ou l'invite de commande à l'aide de la commande pip :

pip install pandas
Copier après la connexion

Une fois l'installation terminée, nous pouvons importer la bibliothèque Pandas dans le script Python et commencer à lire le fichier CSV.

import pandas as pd
Copier après la connexion

Pandas propose plusieurs méthodes pour lire les fichiers CSV. Voici quelques méthodes couramment utilisées.

1. Utilisez la fonction read_csv()

La fonction read_csv() est la méthode la plus couramment utilisée pour lire les fichiers CSV dans Pandas. Il peut charger des données CSV à partir du système de fichiers local ou d'une URL distante et renvoie un objet DataFrame.

df = pd.read_csv('data.csv')
Copier après la connexion

Le code ci-dessus lira les données du fichier data.csv dans le répertoire de travail actuel et les stockera dans un objet DataFrame nommé df. Si le fichier CSV se trouve dans un autre répertoire, le chemin complet du fichier peut être fourni.

2. Spécifiez le délimiteur

Par défaut, la fonction read_csv() utilisera la virgule comme délimiteur pour les fichiers CSV. Si le fichier CSV utilise d'autres délimiteurs, vous pouvez les spécifier via le paramètre sep.

df = pd.read_csv('data.csv', sep=';')
Copier après la connexion

Le code ci-dessus lira le fichier CSV en utilisant le point-virgule comme délimiteur.

3. Spécifiez les noms de colonnes

Si le fichier CSV n'a pas de noms de colonnes ou si les noms de colonnes ne répondent pas aux exigences, vous pouvez spécifier des noms de colonnes personnalisés via le paramètre noms.

df = pd.read_csv('data.csv', names=['column1', 'column2', 'column3'])
Copier après la connexion

Le code ci-dessus lira le fichier CSV en utilisant des noms de colonnes personnalisés.

4. Sauter des lignes

Parfois, la première ou les premières lignes du fichier CSV ne sont pas des informations pertinentes, et ces lignes peuvent être ignorées via le paramètre skiprows.

df = pd.read_csv('data.csv', skiprows=3)
Copier après la connexion

Le code ci-dessus ignorera les trois premières lignes du fichier CSV et lira les données suivantes.

5. Traitement des valeurs manquantes

Il peut y avoir des valeurs manquantes dans le fichier CSV Vous pouvez spécifier la représentation des valeurs manquantes via le paramètre na_values ​​​​.

df = pd.read_csv('data.csv', na_values=['NA', 'NaN'])
Copier après la connexion

Le code ci-dessus identifiera tous les « NA » et « NaN » comme valeurs manquantes.

6. Types de données personnalisés

Parfois, certaines colonnes du fichier CSV doivent être traitées avec des types de données spécifiques. Vous pouvez spécifier le type de données de chaque colonne via le paramètre dtype.

df = pd.read_csv('data.csv', dtype={'column1': int, 'column2': float})
Copier après la connexion

Le code ci-dessus définira le type de données de la colonne1 sur entier et le type de données de la colonne2 sur virgule flottante.

Voici quelques méthodes et techniques couramment utilisées pour lire des fichiers CSV avec Pandas. En appliquant ces méthodes de manière flexible, différents types de fichiers CSV peuvent être facilement lus et traités, et une analyse et un traitement ultérieurs des données peuvent être effectués.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal