Pandas를 사용하여 전체 파일을 다시 로드하지 않고 Excel 통합 문서의 특정 워크시트에 액세스
대용량 Excel 파일을 처리할 때 로드하는 것이 비효율적일 수 있습니다. 몇 개의 워크시트만 필요한 경우 전체 통합 문서를 여러 번 수행합니다. pd.read_excel() 함수를 활용하면 전체 파일을 다시 로드하지 않고도 특정 워크시트를 선택적으로 로드할 수 있습니다.
이를 달성하려면 pd.ExcelFile 클래스 활용을 고려하세요. 수행 방법은 다음과 같습니다.
import pandas as pd # Create an instance of pd.ExcelFile xls = pd.ExcelFile('path_to_file.xls') # Read sheet1 and sheet2 from the Excel file df1 = pd.read_excel(xls, 'Sheet1') df2 = pd.read_excel(xls, 'Sheet2')
이 시나리오에서는 ExcelFile() 호출 중에 전체 Excel 파일이 한 번만 로드됩니다. 이후 각 pd.read_excel() 호출은 특정 시트를 대상으로 하여 불필요한 다시 로드를 방지합니다.
pd.read_excel()의 sheet_name 인수는 시트 이름, 인덱스 등 다양한 값을 허용한다는 점에 유의하는 것이 중요합니다. (예: 0, 1...), 시트 이름 또는 색인 목록 또는 없음. 목록이 제공되면 시트 이름/색인이 키로, 해당 데이터 프레임이 값으로 포함된 사전이 반환됩니다. 기본 동작은 첫 번째 시트(sheet_name=0)를 가져오는 것입니다.
None을 sheet_name으로 활용하면 통합 문서의 모든 시트를 {sheet_name: dataframe} 사전으로 로드할 수 있습니다. 이 접근 방식은 여러 시트에 액세스해야 할 때 이상적이며 파일을 반복적으로 로드할 필요가 없습니다.
위 내용은 Pandas를 사용하여 전체 파일을 다시 로드하지 않고 특정 Excel 워크시트에 액세스하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!