대규모 조직 및 기업에서 공통적 인 스프레드 시트 데이터 처리 및 웹 애플리케이션으로 가져 오는 것은 많은 개발자에게 어려운 과제입니다. 이 기사는 XLSX, CSV 및 기존 스프레드 시트 버전에 대한 읽기 및 쓰기를 포함하여 Python을 사용하여 이러한 데이터를 처리하고 구문 분석하는 방법을 모색합니다.
키 포인트 :
Python은 Pandas 및 OpenPyXL과 같은 라이브러리를 결합하여 XLSX 파일, CSV 파일 및 레거시 스프레드 시트를 읽는 등 스프레드 시트 데이터를 쉽게 구문 분석합니다. 이를 통해 이러한 형식으로 저장된 데이터를 쉽게 조작하고 분석 할 수 있습니다.
스프레드 시트를 읽는 프로세스에는 팬더 모듈 가져 오기, 스프레드 시트 파일 열기, 특정 워크 시트 선택 및 특정 데이터 셀의 값 추출이 포함됩니다. Pandas는 스프레드 시트를 테이블로 읽고 데이터 프레임으로 저장 한 다음 데이터 프레임을 쿼리하여 특정 데이터를 추출 할 수 있습니다.
스프레드 시트를 만드는 프로세스는 데이터 프레임을 만들고 통합 문서에 저장 한 다음 통합 문서에서 워크 시트를 작성하고 통합 문서의 셀에 데이터를 추가하는 것과 유사합니다. Pandas의 ExcelWriter 클래스는 기존 스프레드 시트에 데이터 프레임을 추가하고 날짜 및 시간 값을 설정하는 것을 포함하여 데이터를 스프레드 시트에 저장하기위한 더 많은 옵션을 제공합니다.
스프레드 시트의 기본 사항 : -
스프레드 시트 파일은 여러 워크 시트의 모음이며 각 워크 시트는 테이블과 유사한 그리드로 배열 된 데이터 셀 모음입니다. 워크 시트에서 데이터 셀은 행 번호와 열 번호로 식별됩니다.
-
예를 들어, 위의 이미지에서 스프레드 시트에는 하나의 워크 시트 "Sheet1"만 포함되어 있습니다. 셀 "2a"는 두 번째 행과 첫 번째 열에 해당합니다. 셀 2a의 값은 1입니다. GUI가있는 프로그램은 문자를 열 이름에 할당하지만 데이터를 구문 분석하면 0에서 행 번호와 열 번호로 시작합니다. 이것은 셀 2a가 (1, 0), 4b는 (1, 3)에 해당하고, 3c는 (2, 2) 등에 해당한다는 것을 의미합니다. -
파이썬 환경 설정 :
우리는 Python 3을 사용하여 스프레드 시트를 읽고 쓸 것입니다. XLSX 파일을 읽고 쓰려면 Pandas 모듈을 설치해야합니다. PIP 또는 Easy_Install과 같은 Python 설치 프로그램을 사용하여 설치할 수 있습니다. Pandas는 OpenPyXL 모듈을 사용하여 새 스프레드 시트 (.XLSX) 파일을 읽고 XLRD 모듈을 사용하여 이전 스프레드 시트 (.xls 파일)를 읽습니다. 팬더가 설치되면 두 모듈 (OpenPyXl 및 Xlrd) 모두 종속성으로 설치됩니다.
CSV 파일을 읽고 쓰려면 CSV 모듈이 필요하며, 이는 파이썬에 사전 설치됩니다. CSV 파일은 팬더를 통해 읽을 수도 있습니다.
스프레드 시트를 읽으십시오 :
파일의 데이터를 구문 분석하려면 다음 순서로 다음 작업을 수행해야합니다.
팬더 모듈을 가져옵니다
스프레드 시트 파일 (또는 통합 문서)을 엽니 다
워크 시트를 선택하십시오
특정 데이터 셀의 값을 추출하십시오
스프레드 시트 파일을 엽니 다
먼저, 파이썬에서 파일을 열자. 다음 예제 스프레드 시트 (학습 컨테이너에 의해 제공됨) : pip3 install pandas
로그인 후 복사
로그인 후 복사
판다는 스프레드 시트를 테이블로 읽고 팬더 데이터 프레임으로 저장합니다.
파일에 비 ASCII 문자가 포함 된 경우 유니 코드 형식으로 열어야합니다.
스프레드 시트가 매우 크면 <🎜 🎜> 매개 변수를 추가하여 특정 열을 데이터 프레임에만로드 할 수 있습니다. 예를 들어, 다음 매개 변수는 처음 5 개의 열만 읽습니다.
또한 <🎜 🎜> 및
매개 변수를 사용하여 특정 수의 행만 읽거나 처음에 특정 행의 행을 무시할 수 있습니다. import pandas as pd
workbook = pd.read_excel('sample-xlsx-file-for-testing.xlsx')
workbook.head()
로그인 후 복사
로그인 후 복사
특정 워크 시트를 엽니 다
<🎜 🎜> 매개 변수를 사용하여 스프레드 시트에서 특정 워크 시트를 선택할 수 있습니다. 기본적으로 <,> 함수는 파일의 첫 번째 워크 시트를 구문 분석합니다. 워크 시트의 이름은 문자열 또는 워크 시트의 색인 (0부터 시작)으로 제공 될 수 있습니다.
여러 워크 시트는 목록을 use_cols
매개 변수로 전달하여 팬더 데이터 프레임에 대한 사전 스토리지로 선택할 수도 있습니다.
<<> 셀 데이터를 얻으십시오
데이터 프레임에 대한 워크 시트를 선택한 후 Pandas 데이터 프레임을 쿼리하여 특정 데이터 셀의 값을 추출 할 수 있습니다.
import sys
workbook = pd.read_excel('sample-xlsx-file-for-testing.xlsx', encoding=sys.getfilesystemencoding())
로그인 후 복사
로그인 후 복사
<🎜 🎜> <<> 메소드는 인덱스 위치에 따라 값을 검색하는 데 도움이됩니다. 위의 코드에서 는 0 번째 인덱스 위치의 값을 검색합니다. 마찬가지로, <<> 방법을 사용하여 태그를 사용하여 값을 검색 할 수 있습니다. 예를 들어, 매개 변수 0을 <🎜 🎜> 메소드로 전달하면 index : <🎜 🎜>에서 태그 0을 검색합니다.
<p>
<the> 데이터 세트를 데이터 프레임에로드 한 후 팬더의 내장 함수를 사용하여 데이터 세트를 쿼리 할 수 있습니다. <code>nrows
skiprows
<<> 스프레드 시트를 만듭니다 :
워크 시트를 만드는 과정은 이전 섹션과 유사합니다.
팬더 모듈을 가져옵니다
데이터를 통합 문서 <🎜 🎜>에 저장하십시오
통합 문서에서 워크 시트를 만듭니다
통합 문서에서 셀에 스타일을 추가하십시오
sheet_name
새 파일을 만듭니다 <🎜 read_excel()
새 파일을 만들려면 먼저 데이터 프레임이 필요합니다. 기사의 시작 부분에서 데모 테이블을 재현합시다.
그런 다음 데이터 프레임에 <🎜 🎜> 함수를 호출하여 새 스프레드 시트 파일을 만들고 저장해야 할 파일 이름을 지정할 수 있습니다.
workbook = pd.read_excel('~/Desktop/import-export-data.xlsx', usecols = 'A:E')
workbook.head()
로그인 후 복사
로그인 후 복사
는 또한 함수를 사용하여 동일한 파일을 열 수 있습니다. sheet_name
워크 시트 추가 <🎜 🎜>
데이터 프레임은 <🎜 🎜> 매개 변수를 사용하여 통합 문서에서 특정 워크 시트로 저장할 수 있습니다. 이 매개 변수의 기본값은 Sheet1 : <🎜 🎜>입니다
스프레드 시트를 저장할 때 더 많은 옵션
클래스는 스프레드 시트에 저장할 때 더 많은 옵션을 사용할 수 있습니다. 여러 데이터 프레임을 동일한 파일에 저장하려면 다음 구문을 사용할 수 있습니다.
# 读取名为'Sheet1'的工作表
worksheet = pd.read_excel('sample-xlsx-file-for-testing.xlsx', sheet_name = 'Sheet1')
# 读取文件中的第一个工作表
worksheet = pd.read_excel('sample-xlsx-file-for-testing.xlsx', sheet_name = 0)
로그인 후 복사
데이터 프레임을 기존 스프레드 시트에 추가하려면 매개 변수를 사용하십시오. Append 모드는 엔진이 OpenPyXl로 지정된 경우에만 지원됩니다.
위 내용은 파이썬을 사용하여 스프레드 시트 데이터를 구문 분석합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!