> 데이터 베이스 > MySQL 튜토리얼 > 메모리 부족 없이 Pandas에서 대규모 SQL 쿼리를 처리하려면 어떻게 해야 합니까?

메모리 부족 없이 Pandas에서 대규모 SQL 쿼리를 처리하려면 어떻게 해야 합니까?

Barbara Streisand
풀어 주다: 2025-01-13 08:48:42
원래의
859명이 탐색했습니다.

How Can I Handle Large SQL Queries in Pandas Without Running Out of Memory?

Pandas 및 대규모 SQL 쿼리: 메모리 효율적인 접근 방식

pandas.io.sql.read_frame()을 사용하여 5백만 레코드를 초과하는 SQL 쿼리를 처리하면 메모리 오류가 발생할 수 있습니다. 그러나 Pandas는 이러한 대규모 데이터 세트를 처리하기 위한 강력한 솔루션을 제공합니다. 즉, 더 작고 관리 가능한 덩어리로 처리하는 것입니다.

pandas 버전 0.15부터 read_sql_query() 함수에는 chunksize 매개변수가 포함되어 있습니다. 이를 통해 쿼리 결과를 반복적으로 검색하여 메모리 소비를 크게 줄일 수 있습니다. 청크당 원하는 레코드 수를 지정하면 대규모 쿼리를 더 작고 관리하기 쉬운 조각으로 효과적으로 나눌 수 있습니다.

예를 들어 5,000개 레코드 청크로 쿼리를 처리하려면 다음을 수행하세요.

<code class="language-python">sql = "SELECT * FROM MyTable"
for chunk in pd.read_sql_query(sql, engine, chunksize=5000):
    # Process each chunk here (e.g., calculations, analysis, etc.)
    print(chunk) </code>
로그인 후 복사

이 반복적 접근 방식은 전체 데이터세트를 메모리에 동시에 로드하는 것을 방지합니다. 각 청크는 독립적으로 처리되어 메모리 공간을 최소화하고 매우 큰 데이터 세트가 있는 경우에도 pandas DataFrames 내에서 효율적인 데이터 조작을 가능하게 합니다. chunksize 매개변수는 상당한 SQL 쿼리를 효율적으로 처리하고 메모리 소모를 방지하는 데 핵심입니다.

위 내용은 메모리 부족 없이 Pandas에서 대규모 SQL 쿼리를 처리하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿