Maison > développement back-end > Tutoriel Python > Comment résoudre « pandas.parser.CParserError : erreur de tokenisation des données » lors de la lecture de fichiers CSV ?

Comment résoudre « pandas.parser.CParserError : erreur de tokenisation des données » lors de la lecture de fichiers CSV ?

Barbara Streisand
Libérer: 2024-12-23 15:49:14
original
811 Les gens l'ont consulté

How to Solve

Gestion de "pandas.parser.CParserError : erreur de tokenisation des données" lors de la lecture de fichiers CSV

Le "pandas.parser.CParserError : erreur de tokenisation L'erreur "data" se produit lorsque pandas rencontre une incohérence dans le nombre de champs dans un CSV doubler. Pour résoudre cette erreur et garantir une manipulation fluide des données, considérez les points suivants :

1. Vérifiez les erreurs de codage

Examinez votre fichier CSV pour détecter toute erreur de codage, telle que des délimiteurs de champ manquants ou des valeurs mal formatées. De plus, vérifiez si le fichier a la bonne extension de fichier (par exemple, .csv).

2. Ajuster le délimiteur CSV

Par défaut, pandas utilise une virgule comme délimiteur pour les fichiers CSV. Cependant, si votre fichier CSV utilise un délimiteur différent (comme un point-virgule), spécifiez-le à l'aide du paramètre delimiter dans read_csv().

3. Ignorer les mauvaises lignes

Si vous rencontrez un petit nombre de lignes problématiques, vous pouvez demander aux pandas de les ignorer lors de la lecture du fichier CSV. Vous pouvez le faire en utilisant le paramètre on_bad_lines='skip' dans read_csv().

4. Utilisez le module CSV

Comme alternative aux pandas, vous pouvez utiliser le module Python csv pour lire et analyser les fichiers CSV. Ce module offre plus de contrôle sur le processus d'analyse, vous permettant de gérer les erreurs ou les incohérences avec plus de flexibilité.

Exemple :

Pour utiliser le module csv, vous pouvez essayer le code suivant :

with open(path, 'r') as csv_file:
    csv_reader = csv.reader(csv_file, delimiter=',')
    data = list(csv_reader)
Copier après la connexion

Supplémentaire Conseils :

  • Pour les versions Pandas inférieures à 1.3.0, utilisez error_bad_lines=False pour supprimer l'erreur.
  • Si vous vous attendez à rencontrer un nombre important de mauvaises lignes, utilisez on_bad_lines='warn' ou un appelable personnalisé pour les gérer de manière appropriée.
  • Envisagez de valider les données CSV avant de l'importer dans les pandas pour garantir son intégrité.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal