Interprétation de l'argument Skip Rows de Pandas pour les importations CSV
Lors de l'importation d'un fichier CSV dans un DataFrame à l'aide de pandas.read_csv(), vous pouvez vous rencontrez des situations dans lesquelles vous souhaitez exclure des lignes spécifiques du processus d'importation. L'argument skiprows offre cette fonctionnalité, mais sa syntaxe peut être ambiguë.
Comprendre l'ambiguïté
La documentation pandas indique que les skiprows peuvent accepter soit une liste de numéros de ligne ( indexé 0) ou un nombre entier représentant le nombre de lignes à ignorer depuis le début du fichier. Cette ambiguïté peut prêter à confusion lorsque l'on souhaite sauter une ligne spécifique, comme celle d'index 1.
Déterminer le comportement
Pour clarifier le comportement des skiprows , envisagez les scénarios suivants :
Exemple de démonstration
Illustrons le comportement en utilisant un objet StringIO :
<code class="python">import pandas as pd from io import StringIO s = "1, 2\n3, 4\n5, 6" # Skipping the first row df1 = pd.read_csv(StringIO(s), skiprows=[1], header=None) # Skipping the row with index 1 df2 = pd.read_csv(StringIO(s), skiprows=1, header=None) print(df1) print(df2)</code>
Sortie :
0 1 0 1 2 1 5 6 0 1 0 3 4 1 5 6
Comme vous pouvez le voir, skiprows=[1] ignore la deuxième ligne (index 1), tandis que skiprows=1 ignore la première ligne.
Conclusion
Pour ignorer une ligne spécifique lors des importations CSV à l'aide de pandas.read_csv(), utilisez la syntaxe skiprows=[row_index]. Cette syntaxe spécifie sans équivoque la ligne à exclure du processus d'importation, éliminant ainsi toute confusion sur le comportement de l'argument.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!