대량 SQL 쿼리 결과를 Pandas DataFrames에 효율적으로 로드
광범위한 데이터세트를 처리하려면 SQL 데이터베이스에서 데이터를 검색하고 이를 Pandas DataFrames에 로드하는 작업이 포함되는 경우가 많습니다. 그러나 수백만 개의 레코드를 직접 로드하면 메모리 오류가 발생하기 쉽습니다.
일반적인 오류는 전체 데이터 세트를 메모리에 동시에 로드하려고 시도할 때 발생합니다. Pandas는 chunksize
함수 내의 read_sql_query
매개변수를 사용하여 솔루션을 제공합니다.
증분 데이터 로드를 위해 chunksize
활용:
chunksize
매개변수를 사용하면 SQL 쿼리 결과를 더 작고 관리 가능한 배치로 읽을 수 있으므로 메모리 부담이 크게 줄어듭니다.
<code class="language-python">import pandas as pd pd.read_sql_query(sql, engine, chunksize=100000)</code>
chunksize
을 지정하면 각 반복에서 읽는 행 수를 제어할 수 있습니다.
실제 예:
<code class="language-python">sql = "SELECT * FROM MyTable" for chunk in pd.read_sql_query(sql, engine, chunksize=5): # Process each chunk individually print(chunk)</code>
이 코드는 쿼리 결과를 반복하여 각 chunk
을 독립적으로 처리합니다. 이렇게 하면 데이터를 더 작고 소화 가능한 부분으로 처리하여 메모리 과부하를 방지할 수 있습니다.
추가 최적화 전략:
chunksize
은 매우 효과적이지만 대규모 데이터세트에 대해서는 다음과 같은 추가 최적화를 고려하세요.
그러나 많은 시나리오에서 chunksize
매개변수를 활용하면 Pandas에서 상당한 SQL 쿼리 결과로 작업할 때 메모리 관리에 대한 간단하고 강력한 솔루션을 제공합니다.
위 내용은 대규모 SQL 쿼리 결과를 Pandas DataFrame에 로드할 때 메모리 오류를 방지하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!