대규모 SQL 쿼리 결과를 Pandas DataFrame에 로드할 때 메모리 오류를 방지하려면 어떻게 해야 합니까?
Jan 13, 2025 am 08:56 AM대량 SQL 쿼리 결과를 Pandas DataFrames에 효율적으로 로드
광범위한 데이터세트를 처리하려면 SQL 데이터베이스에서 데이터를 검색하고 이를 Pandas DataFrames에 로드하는 작업이 포함되는 경우가 많습니다. 그러나 수백만 개의 레코드를 직접 로드하면 메모리 오류가 발생하기 쉽습니다.
일반적인 오류는 전체 데이터 세트를 메모리에 동시에 로드하려고 시도할 때 발생합니다. Pandas는 chunksize
함수 내의 read_sql_query
매개변수를 사용하여 솔루션을 제공합니다.
증분 데이터 로드를 위해 chunksize
활용:
chunksize
매개변수를 사용하면 SQL 쿼리 결과를 더 작고 관리 가능한 배치로 읽을 수 있으므로 메모리 부담이 크게 줄어듭니다.
import pandas as pd pd.read_sql_query(sql, engine, chunksize=100000)
chunksize
을 지정하면 각 반복에서 읽는 행 수를 제어할 수 있습니다.
실제 예:
sql = "SELECT * FROM MyTable" for chunk in pd.read_sql_query(sql, engine, chunksize=5): # Process each chunk individually print(chunk)
이 코드는 쿼리 결과를 반복하여 각 chunk
을 독립적으로 처리합니다. 이렇게 하면 데이터를 더 작고 소화 가능한 부분으로 처리하여 메모리 과부하를 방지할 수 있습니다.
추가 최적화 전략:
chunksize
은 매우 효과적이지만 대규모 데이터세트에 대해서는 다음과 같은 추가 최적화를 고려하세요.
- 인덱싱된 뷰: SQL 데이터베이스에 인덱싱된 뷰를 사용하면 쿼리 실행 속도를 대폭 높일 수 있습니다.
- 최적화된 SQL 구문: 대규모 데이터 검색을 위해 설계된 데이터베이스별 구문을 활용합니다.
- 대체 프레임워크: 매우 큰 데이터 세트의 경우 Dask 또는 Spark와 같은 분산 컴퓨팅 프레임워크를 살펴보세요.
그러나 많은 시나리오에서 chunksize
매개변수를 활용하면 Pandas에서 상당한 SQL 쿼리 결과로 작업할 때 메모리 관리에 대한 간단하고 강력한 솔루션을 제공합니다.
위 내용은 대규모 SQL 쿼리 결과를 Pandas DataFrame에 로드할 때 메모리 오류를 방지하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

인기 기사

인기 기사

뜨거운 기사 태그

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Alter Table 문을 사용하여 MySQL에서 테이블을 어떻게 변경합니까?

MySQL의 문제를 해결하는 방법 공유 라이브러리를 열 수 없습니다.

Linux에서 MySQL을 실행합니다 (Phpmyadmin이있는 Podman 컨테이너가 포함되지 않음)

일반적인 취약점 (SQL 주입, 무차별 적 공격)에 대해 MySQL을 어떻게 보호합니까?
