Saut de lignes lors de l'importation CSV avec Pandas
Lors de l'importation de données CSV à l'aide de Pandas, il est souvent nécessaire de sauter les lignes que vous ne souhaitez pas à inclure dans votre analyse. Cependant, l'ambiguïté entourant l'argument skiprows peut prêter à confusion.
La syntaxe des skiprows est la suivante :
skiprows : list-like or integer Row numbers to skip (0-indexed) or number of rows to skip (int) at the start of the file.
La question se pose : comment les Pandas savent-ils s'ils doivent sauter la première ligne ou la ligne avec l'index 1 lorsque skiprows=1 est spécifié ?
Pour comprendre cela, effectuons une expérience en utilisant un exemple de fichier CSV avec trois lignes :
1, 2 3, 4 5, 6
Sauter la ligne avec index 1
Si vous souhaitez ignorer la ligne avec l'index 1, transmettez les sauts de ligne sous forme de liste :
<code class="python">import pandas as pd from io import StringIO s = """1, 2 ... 3, 4 ... 5, 6""" df = pd.read_csv(StringIO(s), skiprows=[1], header=None) # Skip row with index 1 print(df)</code>
Sortie :
0 1 0 1 2 1 5 6
Sauter un nombre de lignes
Pour sauter un nombre spécifique de lignes (dans ce cas, 1), transmettez les sauts de ligne sous forme d'entier :
<code class="python">df = pd.read_csv(StringIO(s), skiprows=1, header=None) # Skip the first row print(df)</code>
Sortie :
0 1 0 3 4 1 5 6
Par conséquent, il est clair que l'argument skiprows se comporte différemment selon que vous fournissez une liste ou un entier. Si vous souhaitez ignorer une ligne par son index, utilisez une liste. Sinon, utilisez un nombre entier pour ignorer un nombre spécifié de lignes depuis le début du fichier.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!