Maison > développement back-end > Tutoriel Python > Conseils pratiques et précautions pour lire les fichiers CSV chez les pandas

Conseils pratiques et précautions pour lire les fichiers CSV chez les pandas

WBOY
Libérer: 2024-01-13 11:20:07
original
1394 Les gens l'ont consulté

Conseils pratiques et précautions pour lire les fichiers CSV chez les pandas

Conseils pratiques et précautions pour lire des fichiers CSV avec pandas

Présentation :
Avec l'importance croissante du traitement et de l'analyse des données, pandas est devenue l'une des bibliothèques Python les plus couramment utilisées dans le domaine de la science des données. Pandas fournit de riches fonctions d'analyse et de traitement des données, et CSV (valeurs séparées par des virgules) est un format de stockage de données courant. Cet article présentera des conseils pratiques pour lire des fichiers CSV avec des pandas et quelques éléments auxquels il faut prêter attention.

  1. Importer les bibliothèques et les données associées
    Avant de commencer, assurez-vous que la bibliothèque pandas est correctement installée. La bibliothèque peut être importée en utilisant le code suivant :
import pandas as pd
Copier après la connexion
  1. Lecture des fichiers CSV
    Pour lire les fichiers CSV, vous pouvez utiliser la fonction read_csv() de pandas. Par défaut, cette fonction prend la virgule comme délimiteur. read_csv()函数。默认情况下,该函数将逗号作为分隔符。
data = pd.read_csv('data.csv')
Copier après la connexion

上述代码将读取名为"data.csv"的文件,并将其保存到名为"data"的变量中。如果文件和代码不在同一目录下,需要提供完整的文件路径。

  1. 查看数据
    读取完CSV文件后,常见的操作是查看数据的前几行或者整个数据集。可以使用head()函数来查看前几行数据,默认值为前5行。
data.head()
Copier après la connexion

另外,可使用tail()函数来查看最后几行数据。

  1. 分隔符和编码
    默认情况下,read_csv()函数使用逗号作为分隔符。但是在实际应用中,数据可能使用其他分隔符,比如制表符或分号。可以通过sep参数来指定分隔符。
data = pd.read_csv('data.csv', sep='    ')  # 使用制表符作为分隔符
Copier après la connexion

有时候,CSV文件可能使用不同的编码方式保存,可能需要指定encoding参数来正确读取数据。

data = pd.read_csv('data.csv', encoding='utf-8')
Copier après la connexion
  1. 处理缺失值
    在真实的数据中,经常会碰到缺失值。pandas默认将缺失值标记为NaN。在读取文件时,可以使用na_values参数来指定要将哪些值视为缺失值。
data = pd.read_csv('data.csv', na_values=['NA', 'NULL'])
Copier après la connexion
  1. 选择特定的数据列
    在某些情况下,可能只对数据的一部分感兴趣。可以通过列名或索引号选择特定的数据列。
column1 = data['column_name']  # 使用列名选择
column2 = data.iloc[:, 0]  # 使用索引号选择
Copier après la connexion
  1. 跳过行和选择要读取的行数
    在某些情况下,可能需要跳过一些行,或者只读取部分文件。可以使用skiprows参数来跳过指定数量的行。
data = pd.read_csv('data.csv', skiprows=10)  # 跳过前10行
Copier après la connexion

还可以使用nrows参数来限制读取的行数。

data = pd.read_csv('data.csv', nrows=100)  # 只读取前100行
Copier après la connexion
  1. 处理日期和时间
    在读取包含日期和时间的CSV文件时,pandas可以自动将其转换为日期时间格式。可以使用parse_dates参数将某一列或多列解析为日期时间类型。
data = pd.read_csv('data.csv', parse_dates=['date_column'])  # 将名为'date_column'的列解析为日期时间类型
Copier après la connexion
  1. 跳过特定行数的文件标题
    有时候,CSV文件的第一行包含的是标题,而不是实际的数据。可以通过skiprows参数跳过标题行。
data = pd.read_csv('data.csv', skiprows=1)  # 跳过首行
Copier après la connexion
  1. 手动处理标题
    如果CSV文件没有标题行,可以使用header
  2. header_list = ['column1', 'column2', 'column3']  # 标题列表
    data = pd.read_csv('data.csv', header=None, names=header_list)  # 添加标题
    Copier après la connexion
    Le code ci-dessus lira le fichier nommé "data.csv" et l'enregistrera dans une variable nommée "data". Si le fichier et le code ne se trouvent pas dans le même répertoire, vous devez fournir le chemin complet du fichier.

      Afficher les données

      Après avoir lu le fichier CSV, une opération courante consiste à afficher les premières lignes des données ou l'ensemble des données. Vous pouvez utiliser la fonction head() pour afficher les premières lignes de données. La valeur par défaut est les 5 premières lignes.

      🎜rrreee🎜De plus, vous pouvez utiliser la fonction tail() pour afficher les dernières lignes de données. 🎜
        🎜Délimiteur et encodage🎜Par défaut, la fonction read_csv() utilise des virgules comme délimiteur. Mais dans les applications réelles, les données peuvent utiliser d'autres délimiteurs, tels que des tabulations ou des points-virgules. Le séparateur peut être spécifié via le paramètre sep. 🎜🎜rrreee🎜Parfois, les fichiers CSV peuvent être enregistrés en utilisant différentes méthodes d'encodage, et vous devrez peut-être spécifier le paramètre encoding pour lire correctement les données. 🎜rrreee
          🎜Gestion des valeurs manquantes🎜Dans les données réelles, des valeurs manquantes sont souvent rencontrées. pandas marque les valeurs manquantes comme NaN par défaut. Lors de la lecture d'un fichier, vous pouvez utiliser le paramètre na_values pour spécifier quelles valeurs doivent être considérées comme manquantes. 🎜🎜rrreee
            🎜Sélectionnez des colonnes de données spécifiques🎜Dans certains cas, seule une partie des données peut être intéressante. Des colonnes de données spécifiques peuvent être sélectionnées par nom de colonne ou numéro d'index. 🎜🎜rrreee
              🎜Sauter des lignes et choisir le nombre de lignes à lire🎜Dans certains cas, il peut être nécessaire de sauter certaines lignes, ou de lire seulement une partie du fichier. Vous pouvez utiliser le paramètre skiprows pour sauter un nombre spécifié de lignes. 🎜🎜rrreee🎜Vous pouvez également utiliser le paramètre nrows pour limiter le nombre de lignes lues. 🎜rrreee
                🎜Gestion de la date et de l'heure🎜Lors de la lecture d'un fichier CSV contenant la date et l'heure, les pandas peuvent le convertir automatiquement au format datetime. Vous pouvez utiliser le paramètre parse_dates pour analyser une ou plusieurs colonnes en types de date et d'heure. 🎜🎜rrreee
                  🎜Ignorer les en-têtes de fichiers pour un nombre spécifique de lignes🎜Parfois, la première ligne d'un fichier CSV contient un en-tête au lieu des données réelles. La ligne d'en-tête peut être ignorée via le paramètre skiprows. 🎜🎜rrreee
                    🎜Gestion manuelle des en-têtes🎜Si le fichier CSV n'a pas de ligne d'en-tête, vous pouvez utiliser le paramètre header pour ajouter manuellement un en-tête à l'ensemble de données. 🎜🎜rrreee🎜Voici quelques conseils pratiques et précautions lors de la lecture de fichiers CSV avec des pandas. Espérons que ces conseils vous aideront à mieux traiter et analyser les données. La lecture de fichiers CSV à l'aide de pandas facilite le chargement de données en mémoire et profite des puissantes capacités de traitement des données de pandas pour une analyse et une visualisation plus approfondies. 🎜🎜(Remarque : l'exemple de code ci-dessus est uniquement à titre de référence et l'application spécifique peut être ajustée en fonction de la situation réelle.)🎜

    Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal