Python에서 대용량 CSV 파일을 효과적으로 읽고 처리하는 방법은 무엇입니까?

DDD
풀어 주다: 2024-11-09 11:58:02
원래의
543명이 탐색했습니다.

How to Effectively Read and Process Large CSV Files in Python?

대용량 CSV 파일을 효과적으로 읽기

Python에서 대용량 CSV 파일을 읽고 처리하는 것은 메모리 제한으로 인해 어려울 수 있습니다. 이 문제는 수백만 개의 행과 수백 개의 열이 포함된 파일에서 더욱 두드러집니다.

메모리 문제 및 최적화

현재 코드는 CSV 파일을 목록으로 만듭니다. 그러나 이 접근 방식은 전체 데이터세트를 메모리에 로드하므로 대용량 파일에는 비효율적입니다.

이 메모리 문제를 해결하려면 데이터를 읽으면서 처리하세요. 아래와 같이 한 번에 한 행을 생성하는 생성기 함수를 사용하세요.

import csv

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield the header row
        count = 0
        for row in datareader:
            if row[3] == criterion:
                yield row
                count += 1
            elif count:
                # stop when exceeding the adjacent rows of criteria
                return
로그인 후 복사

이 업데이트된 코드는 지정된 기준과 일치하는 행을 한 줄씩 생성합니다. 전체 데이터 세트를 메모리에 보관할 필요가 없습니다.

성능 개선

메모리 최적화 외에도 성능을 향상시키는 추가 기술이 있습니다.

  • 스트리밍 파서 사용: 스트리밍을 지원하는 CSV 라이브러리를 사용하면 데이터를 메모리에 로드하지 않고도 증분식으로 처리할 수 있습니다.
  • 처리 병렬화: 시스템이 지원하는 경우 여러 코어 또는 프로세서에 작업 부하를 분산하여 병렬 처리를 살펴보세요.
  • 자주 액세스하는 데이터 캐시: 가능하다면 반복적으로 액세스하는 데이터 세트 부분을 다시 읽을 필요성을 최소화하세요.
  • 코드 최적화: 처리 속도를 저하시킬 수 있는 불필요하거나 비효율적인 작업이 있는지 코드를 검토하세요.

By 이러한 전략을 사용하면 대용량 CSV 파일을 처리하기 위한 Python 코드의 효율성을 크게 향상시킬 수 있습니다.

위 내용은 Python에서 대용량 CSV 파일을 효과적으로 읽고 처리하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿