Pandas read_csv에서 불규칙 구분 기호 극복
불규칙 구분 기호가 있는 파일에서 데이터를 읽을 때 pandas read_csv 메서드에 문제가 발생할 수 있습니다. 다양한 공백을 원활하게 처리하는 Python Split() 메서드와 달리 read_csv는 일관되지 않은 공백과 탭으로 구분된 데이터를 해독하는 데 어려움을 겪을 수 있습니다.
이 문제를 해결하기 위해 pandas는 구분 기호 정의를 위한 다양한 옵션을 제공합니다. 한 가지 접근 방식은 정규식(regex)을 사용하는 것입니다. read_csv의 구분 기호 매개변수를 사용하면 원하는 구분 기호를 캡처하는 정규식 패턴을 지정할 수 있습니다. 이를 통해 공백과 탭의 조합을 고려하여 정확한 구문 분석을 보장할 수 있습니다.
또는 Python Split() 메서드와 유사하게 작동하는 delim_whitespace 매개변수를 활용할 수도 있습니다. delim_whitespace를 True로 설정하면 pandas는 모든 공백(공백 및 탭 포함)을 구분 기호로 처리합니다. 이렇게 하면 특정 정규식 패턴을 지정할 필요가 없습니다.
다음 예를 고려하세요.
import pandas as pd data = pd.read_csv("irregular_separators.csv", header=None, delimiter=r"\s+") print(data) # Output: # 0 1 2 3 4 # 0 a b c 1 2 # 1 d e f 3 4
이 경우 불규칙_separators.csv에는 탭, 공백 및 심지어 다음의 조합으로 구분된 열이 포함됩니다. 둘 다. 정규식 패턴을 지정하면 read_csv가 데이터를 성공적으로 구문 분석하고 DataFrame을 생성합니다.
또는 delim_whitespace를 사용하여
data = pd.read_csv("irregular_separators.csv", header=None, delim_whitespace=True) print(data) # Output (same as above): # 0 1 2 3 4 # 0 a b c 1 2 # 1 d e f 3 4
read_csv에서 구분 기호의 유연성을 활용하면 불규칙한 내용을 효과적으로 처리할 수 있습니다. 데이터 파일에 공백을 넣고 분석을 위해 의미 있는 정보를 추출합니다.
위 내용은 Pandas read_csv에서 불규칙 구분 기호를 사용하여 데이터를 어떻게 구문 분석합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!