Pandas read_csv: low_memory 및 dtype 옵션

pd.read_csv('somefile.csv')를 사용할 때 다음과 같은 문제가 발생할 수 있습니다. 열에 혼합 유형이 있음을 나타내는 DtypeWarning입니다. dtype 옵션을 지정하면 이 오류를 방지하고 성능을 향상할 수 있습니다.

low_memory 옵션 이해

사용되지 않는 low_memory 옵션은 실제로 동작에 영향을 미치지 않습니다. 그러나 각 열에 대한 dtype을 추측하는 것은 메모리 집약적일 수 있기 때문에 dtype 옵션과 관련이 있습니다.

파일에 예상치 못한 데이터가 포함되어 있으므로 dtypes를 지정하면 로드 프로세스가 실패할 수 있습니다. 예를 들어 정수로 지정된 열에 "foobar"와 같은 문자열 값이 포함되어 있으면 로드가 중단됩니다.

이러한 오류를 방지하려면 명시적으로 CSV 파일을 읽을 때 dtypes를 지정하십시오. dtype 옵션을 사용하면 각 열에 올바른 데이터 유형이 할당되어 효율적인 구문 분석이 가능하고 메모리 소비가 줄어듭니다.

Pandas는 다음을 포함한 다양한 dtype을 지원합니다. :