대규모 SQL 쿼리를 Pandas DataFrame으로 가져올 때 메모리 오류 방지
대량 SQL 데이터베이스로 작업하면 대규모 데이터 세트를 검색할 때 종종 문제가 발생합니다. 백만 행을 초과하는 전체 테이블을 Pandas DataFrame에 직접 로드하려고 하면 쉽게 메모리 오류가 발생할 수 있습니다. 다음 코드는 이 문제를 보여줍니다.
<code class="language-python">import pandas.io.sql as psql sql = "SELECT TOP 2000000 * FROM MyTable" data = psql.read_frame(sql, cnxn)</code>
이 방법은 실패하기 쉬우며 결과 DataFrame이 사용 가능한 RAM을 초과하는 경우 "MemoryError"가 발생합니다.
Pandas는 버전 0.15부터 강력한 솔루션인 chunksize
매개변수를 제공합니다. 이를 통해 SQL 쿼리를 더 작고 관리 가능한 부분으로 읽고 처리할 수 있습니다.
이 솔루션을 구현하는 방법은 다음과 같습니다.
<code class="language-python">sql = "SELECT * FROM My_Table" for chunk in pd.read_sql_query(sql , engine, chunksize=5): print(chunk)</code>
chunksize
을 지정하면 Pandas가 데이터를 증분 방식으로 검색합니다. 각 청크는 개별적으로 처리되어 메모리 과부하를 방지합니다. 위의 예는 각 청크를 인쇄합니다. 필요에 따라 각 청크에 다른 작업을 수행하도록 이를 조정할 수 있습니다.
이 기술은 대규모 SQL 쿼리를 처리할 수 있는 실용적이고 메모리 효율적인 방법을 제공하여 상당한 데이터 세트가 있는 경우에도 원활한 데이터 처리를 보장합니다.
위 내용은 메모리 부족 없이 Pandas DataFrames로 대규모 SQL 쿼리를 어떻게 읽을 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!