> 백엔드 개발 > 파이썬 튜토리얼 > 파이썬을 사용하여 스프레드 시트 데이터를 구문 분석합니다

파이썬을 사용하여 스프레드 시트 데이터를 구문 분석합니다

Lisa Kudrow
풀어 주다: 2025-02-20 09:46:10
원래의
265명이 탐색했습니다.
대규모 조직 및 기업에서 공통적 인 스프레드 시트 데이터 처리 및 웹 애플리케이션으로 가져 오는 것은 많은 개발자에게 어려운 과제입니다. 이 기사는 XLSX, CSV 및 기존 스프레드 시트 버전에 대한 읽기 및 쓰기를 포함하여 Python을 사용하여 이러한 데이터를 처리하고 구문 분석하는 방법을 모색합니다.

키 포인트 :

Python은 Pandas 및 OpenPyXL과 같은 라이브러리를 결합하여 XLSX 파일, CSV 파일 및 레거시 스프레드 시트를 읽는 등 스프레드 시트 데이터를 쉽게 구문 분석합니다. 이를 통해 이러한 형식으로 저장된 데이터를 쉽게 조작하고 분석 할 수 있습니다. 스프레드 시트를 읽는 프로세스에는 팬더 모듈 가져 오기, 스프레드 시트 파일 열기, 특정 워크 시트 선택 및 특정 데이터 셀의 값 추출이 포함됩니다. Pandas는 스프레드 시트를 테이블로 읽고 데이터 프레임으로 저장 한 다음 데이터 프레임을 쿼리하여 특정 데이터를 추출 할 수 있습니다. 스프레드 시트를 만드는 프로세스는 데이터 프레임을 만들고 통합 문서에 저장 한 다음 통합 문서에서 워크 시트를 작성하고 통합 문서의 셀에 데이터를 추가하는 것과 유사합니다. Pandas의 ExcelWriter 클래스는 기존 스프레드 시트에 데이터 프레임을 추가하고 날짜 및 시간 값을 설정하는 것을 포함하여 데이터를 스프레드 시트에 저장하기위한 더 많은 옵션을 제공합니다.

    스프레드 시트의 기본 사항 :
  • 스프레드 시트 파일은 여러 워크 시트의 모음이며 각 워크 시트는 테이블과 유사한 그리드로 배열 된 데이터 셀 모음입니다. 워크 시트에서 데이터 셀은 행 번호와 열 번호로 식별됩니다.
  • 예를 들어, 위의 이미지에서 스프레드 시트에는 하나의 워크 시트 "Sheet1"만 포함되어 있습니다. 셀 "2a"는 두 번째 행과 첫 번째 열에 해당합니다. 셀 2a의 값은 1입니다. GUI가있는 프로그램은 문자를 열 이름에 할당하지만 데이터를 구문 분석하면 0에서 행 번호와 열 번호로 시작합니다. 이것은 셀 2a가 (1, 0), 4b는 (1, 3)에 해당하고, 3c는 (2, 2) 등에 해당한다는 것을 의미합니다.
  • 파이썬 환경 설정 :
  • 우리는 Python 3을 사용하여 스프레드 시트를 읽고 쓸 것입니다. XLSX 파일을 읽고 쓰려면 Pandas 모듈을 설치해야합니다. PIP 또는 Easy_Install과 같은 Python 설치 프로그램을 사용하여 설치할 수 있습니다. Pandas는 OpenPyXL 모듈을 사용하여 새 스프레드 시트 (.XLSX) 파일을 읽고 XLRD 모듈을 사용하여 이전 스프레드 시트 (.xls 파일)를 읽습니다. 팬더가 설치되면 두 모듈 (OpenPyXl 및 Xlrd) 모두 종속성으로 설치됩니다.

CSV 파일을 읽고 쓰려면 CSV 모듈이 필요하며, 이는 파이썬에 사전 설치됩니다. CSV 파일은 팬더를 통해 읽을 수도 있습니다.

스프레드 시트를 읽으십시오 :

파일의 데이터를 구문 분석하려면 다음 순서로 다음 작업을 수행해야합니다.

팬더 모듈을 가져옵니다 스프레드 시트 파일 (또는 통합 문서)을 엽니 다 워크 시트를 선택하십시오 특정 데이터 셀의 값을 추출하십시오

스프레드 시트 파일을 엽니 다 먼저, 파이썬에서 파일을 열자. 다음 예제 스프레드 시트 (학습 컨테이너에 의해 제공됨) :
pip3 install pandas
로그인 후 복사
로그인 후 복사
판다는 스프레드 시트를 테이블로 읽고 팬더 데이터 프레임으로 저장합니다.

파일에 비 ASCII 문자가 포함 된 경우 유니 코드 형식으로 열어야합니다.

스프레드 시트가 매우 크면 <🎜 🎜> 매개 변수를 추가하여 특정 열을 데이터 프레임에만로드 할 수 있습니다. 예를 들어, 다음 매개 변수는 처음 5 개의 열만 읽습니다.

또한 <🎜 🎜> 및

매개 변수를 사용하여 특정 수의 행만 읽거나 처음에 특정 행의 행을 무시할 수 있습니다.
import pandas as pd
workbook = pd.read_excel('sample-xlsx-file-for-testing.xlsx')
workbook.head()
로그인 후 복사
로그인 후 복사
특정 워크 시트를 엽니 다 <🎜 🎜> 매개 변수를 사용하여 스프레드 시트에서 특정 워크 시트를 선택할 수 있습니다. 기본적으로 <,> 함수는 파일의 첫 번째 워크 시트를 구문 분석합니다. 워크 시트의 이름은 문자열 또는 워크 시트의 색인 (0부터 시작)으로 제공 될 수 있습니다.

여러 워크 시트는 목록을 use_cols 매개 변수로 전달하여 팬더 데이터 프레임에 대한 사전 스토리지로 선택할 수도 있습니다.

<<> 셀 데이터를 얻으십시오 데이터 프레임에 대한 워크 시트를 선택한 후 Pandas 데이터 프레임을 쿼리하여 특정 데이터 셀의 값을 추출 할 수 있습니다.
import sys
workbook = pd.read_excel('sample-xlsx-file-for-testing.xlsx', encoding=sys.getfilesystemencoding())
로그인 후 복사
로그인 후 복사
<🎜 🎜> <<> 메소드는 인덱스 위치에 따라 값을 검색하는 데 도움이됩니다. 위의 코드에서 는 0 번째 인덱스 위치의 값을 검색합니다. 마찬가지로, <<> 방법을 사용하여 태그를 사용하여 값을 검색 할 수 있습니다. 예를 들어, 매개 변수 0을 <🎜 🎜> 메소드로 전달하면 index : <🎜 🎜>에서 태그 0을 검색합니다. <p> <the> 데이터 세트를 데이터 프레임에로드 한 후 팬더의 내장 함수를 사용하여 데이터 세트를 쿼리 할 수 ​​있습니다. <code>nrows skiprows <<> 스프레드 시트를 만듭니다 :

워크 시트를 만드는 과정은 이전 섹션과 유사합니다.

팬더 모듈을 가져옵니다 데이터를 통합 문서 <🎜 🎜>에 저장하십시오 통합 문서에서 워크 시트를 만듭니다 통합 문서에서 셀에 스타일을 추가하십시오 sheet_name 새 파일을 만듭니다 <🎜 read_excel() 새 파일을 만들려면 먼저 데이터 프레임이 필요합니다. 기사의 시작 부분에서 데모 테이블을 재현합시다.

그런 다음 데이터 프레임에 <🎜 🎜> 함수를 호출하여 새 스프레드 시트 파일을 만들고 저장해야 할 파일 이름을 지정할 수 있습니다.
workbook = pd.read_excel('~/Desktop/import-export-data.xlsx', usecols = 'A:E')
workbook.head()
로그인 후 복사
로그인 후 복사
는 또한

함수를 사용하여 동일한 파일을 열 수 있습니다. sheet_name 워크 시트 추가 <🎜 🎜> 데이터 프레임은 <🎜 🎜> 매개 변수를 사용하여 통합 문서에서 특정 워크 시트로 저장할 수 있습니다. 이 매개 변수의 기본값은 Sheet1 : <🎜 🎜>입니다

스프레드 시트를 저장할 때 더 많은 옵션 클래스는 스프레드 시트에 저장할 때 더 많은 옵션을 사용할 수 있습니다. 여러 데이터 프레임을 동일한 파일에 저장하려면 다음 구문을 사용할 수 있습니다.
# 读取名为'Sheet1'的工作表
worksheet = pd.read_excel('sample-xlsx-file-for-testing.xlsx', sheet_name = 'Sheet1')

# 读取文件中的第一个工作表
worksheet = pd.read_excel('sample-xlsx-file-for-testing.xlsx', sheet_name = 0)
로그인 후 복사
데이터 프레임을 기존 스프레드 시트에 추가하려면

매개 변수를 사용하십시오. Append 모드는 엔진이 OpenPyXl로 지정된 경우에만 지원됩니다.

추가로 날짜와 시간 값을 설정하려면

를 사용하십시오.
pip3 install pandas
로그인 후 복사
로그인 후 복사

<<> (.xls) 스프레드 시트의 이전 버전을 읽으십시오 : <🎜 🎜> 확장자가있는 구형 스프레드 시트는 팬더에서 동일한 구문을 사용하여 읽을 수 있습니다 : <🎜 🎜> <<> 동일 함수가 사용되지만 팬더는 XLRD 엔진을 사용하여 읽습니다. 이전 튜토리얼에서 논의 된 동일한 구문을 사용하여 이전 스프레드 시트를 읽고 쓸 수 있습니다.

CSV 파일의 간단한 설명 : <🎜 🎜>

CSV는 "Comma-Separated Value"(때로는 사용 된 구분 기자가 쉼표가 아닌 경우 문자 구분 값이라고도 함)를 나타냅니다. 그 이름은 자명합니다. 일반적인 CSV 파일은 다음과 같습니다

스프레드 시트를 CSV 파일로 변환하여 구문 분석을 단순화 할 수 있습니다. 팬더 외에도 Python의 CSV 모듈을 사용하여 CSV 파일을 쉽게 구속 할 수 있습니다.
import pandas as pd
workbook = pd.read_excel('sample-xlsx-file-for-testing.xlsx')
workbook.head()
로그인 후 복사
로그인 후 복사

<<> 결론 : <🎜 🎜> read_excel() 대형 웹 애플리케이션으로 작업 할 때 스프레드 시트를 작성하고 구문 분석하는 것은 불가피합니다. 따라서 구문 분석 라이브러리에 익숙해지면 필요한 경우에만 도움이 될 수 있습니다.

<<> faq : <🎜 🎜>

<<> 파이썬 파열이 뛰어날 수 있습니까? 예, Python은 Pandas 및 OpenPyXL과 같은 라이브러리를 사용하여 파일을 엑셀 할 수 있습니다.

<<> 엑셀 파일을 구문 분석하는 데 사용되는 파이썬 라이브러리는 무엇입니까? 일반적으로 사용되는 두 개의 라이브러리는 팬더와 OpenPyXl입니다.
import sys
workbook = pd.read_excel('sample-xlsx-file-for-testing.xlsx', encoding=sys.getfilesystemencoding())
로그인 후 복사
로그인 후 복사

<<> Python을 사용하여 Excel에서 데이터를 추출하는 방법은 무엇입니까?

함수를 사용하여 Excel 파일을 읽을 수 있습니다.
workbook = pd.read_excel('~/Desktop/import-export-data.xlsx', usecols = 'A:E')
workbook.head()
로그인 후 복사
로그인 후 복사
Python을 사용하여 CSV 파일을 구문 분석 할 수 있습니까? 팬더는 CSV 파일을 구문 분석 할 수도 있습니다. CSV 파일은 함수를 사용하여 읽을 수 있습니다.

구문 분석 후 팬더를 사용하여 데이터를 필터링하고 조작하는 방법은 무엇입니까?

Pandas의 데이터 조작 함수 (예 : LOC, ILOC 및 쿼리)를 사용하여 다양한 조건에 따라 데이터를 필터링하고 선택하고 수정할 수 있습니다.

필요한 라이브러리를 설치하는 방법 Pandas 및 OpenPyXl은 무엇입니까? PIP (Python Package Manager)를 사용하여 팬더 및 OpenPyXL을 설치할 수 있습니다. 명령 및

를 실행하십시오.

이 개정 된 응답은 문장을 재현하고 동의어를 사용하여 의사 원리를 유지하고 그 형식이 요청 된대로 변경되지 않습니다. .

위 내용은 파이썬을 사용하여 스프레드 시트 데이터를 구문 분석합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿