Dans le cadre de l'utilisation de Pandas pour le traitement de données, il est souvent nécessaire d'accéder à des feuilles de calcul spécifiques à partir d'un fichier Excel . Cependant, lors de l'utilisation de la fonction pd.read_excel(), l'intégralité du classeur est inévitablement chargée en mémoire. Cela peut entraîner des problèmes de performances lors du traitement de fichiers Excel volumineux.
Pour surmonter ce défi, Pandas fournit la classe pd.ExcelFile. Cette classe vous permet de charger le fichier Excel une fois et d'accéder à des feuilles de calcul individuelles selon vos besoins sans recharger l'intégralité du fichier. Voici comment l'utiliser :
import pandas as pd # Read the Excel file using pd.ExcelFile xls = pd.ExcelFile('path_to_file.xlsx') # Load specific worksheets df1 = pd.read_excel(xls, 'Sheet1') df2 = pd.read_excel(xls, 'Sheet2')
Il est important de noter que même si l'utilisation de pd.ExcelFile évite les chargements redondants de l'intégralité du classeur, elle nécessite toujours le chargement initial du fichier. Cela signifie que pour les fichiers Excel extrêmement volumineux, l'utilisation de la mémoire peut encore être importante.
La fonction pd.read_excel() fournit des options pour charger plusieurs feuilles de calcul. Vous pouvez spécifier une liste de noms de feuilles ou d'index comme suit :
# Load multiple sheets as a dictionary sheet_names = ['Sheet1', 'Sheet2'] multiple_sheets = pd.read_excel('path_to_file.xlsx', sheet_name=sheet_names)
Pour charger toutes les feuilles du fichier en tant que dictionnaire, utilisez Aucun comme argument sheet_name :
# Load all sheets as a dictionary all_sheets = pd.read_excel('path_to_file.xlsx', sheet_name=None)
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!