백엔드 개발 파이썬 튜토리얼 Python을 사용하여 수백만 행의 SQL 데이터를 효율적으로 읽기

Python을 사용하여 수백만 행의 SQL 데이터를 효율적으로 읽기

Jul 18, 2024 pm 05:57 PM

Efficiently Reading Millions of Rows of SQL Data with Python

SQL에서 대규모 데이터세트로 작업하는 것은 어려울 수 있으며, 특히 수백만 행을 효율적으로 읽어야 하는 경우에는 더욱 그렇습니다. Python을 사용하여 이를 처리하고 데이터 처리의 성능과 관리 가능성을 유지하는 간단한 접근 방식은 다음과 같습니다.

엔드 투 엔드 빅데이터 및 데이터 사이언스 프로젝트 해결

효율적인 데이터베이스 드라이버 사용

Python에는 PostgreSQL용 psycopg2, MySQL용 mysql-connector-python, SQLite용 sqlite3과 같은 여러 데이터베이스 드라이버가 있습니다. 귀하의 데이터베이스에 가장 적합한 드라이버를 선택하세요.

import mysql.connector

connection = mysql.connector.connect(
    host="your_host",
    user="your_username",
    password="your_password",
    database="your_database"
)
cursor = connection.cursor()
로그인 후 복사

청크로 데이터 가져오기

한 번에 수백만 개의 행을 가져오면 메모리가 압도될 수 있습니다. 대신 루프를 사용하여 관리 가능한 청크로 데이터를 가져옵니다. 이 방법을 사용하면 메모리 사용량을 낮게 유지하고 성능을 유지할 수 있습니다.

chunk_size = 10000
offset = 0

while True:
    query = f"SELECT * FROM your_table LIMIT {chunk_size} OFFSET {offset}"
    cursor.execute(query)
    rows = cursor.fetchall()

    if not rows:
        break

    process_data(rows)
    offset += chunk_size
로그인 후 복사

효율적인 데이터 처리

process_data 함수 내에서 데이터 처리가 효율적인지 확인하세요. 불필요한 계산을 피하고 NumPy 또는 Pandas와 같은 라이브러리를 사용하여 벡터화된 작업을 활용하세요.

import pandas as pd

def process_data(rows):
    df = pd.DataFrame(rows, columns=['col1', 'col2', 'col3'])
    # Perform operations on the DataFrame
    print(df.head())
로그인 후 복사

Connection Pooling 활용

반복적인 작업의 경우 연결 풀링을 사용하면 데이터베이스 연결을 효율적으로 관리하는 데 도움이 될 수 있습니다. SQLAlchemy와 같은 라이브러리는 강력한 풀링 솔루션을 제공합니다.

from sqlalchemy import create_engine

engine = create_engine("mysql+mysqlconnector://user:password@host/dbname")
connection = engine.connect()

chunk_size = 10000
offset = 0

while True:
    query = f"SELECT * FROM your_table LIMIT {chunk_size} OFFSET {offset}"
    result_proxy = connection.execute(query)
    rows = result_proxy.fetchall()

    if not rows:
        break

    process_data(rows)
    offset += chunk_size
로그인 후 복사

이러한 단계를 따르면 Python을 사용하여 수백만 행의 SQL 데이터를 효율적으로 읽고 처리할 수 있습니다. 이 접근 방식을 사용하면 대규모 데이터 세트를 처리할 때에도 애플리케이션의 응답성과 성능이 유지됩니다.

위 내용은 Python을 사용하여 수백만 행의 SQL 데이터를 효율적으로 읽기의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법 Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법 Mar 05, 2025 am 09:58 AM

Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법

파이썬에서 파일을 다운로드하는 방법 파이썬에서 파일을 다운로드하는 방법 Mar 01, 2025 am 10:03 AM

파이썬에서 파일을 다운로드하는 방법

파이썬의 이미지 필터링 파이썬의 이미지 필터링 Mar 03, 2025 am 09:44 AM

파이썬의 이미지 필터링

HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까? HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까? Mar 10, 2025 pm 06:54 PM

HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까?

Python을 사용하여 PDF 문서를 사용하는 방법 Python을 사용하여 PDF 문서를 사용하는 방법 Mar 02, 2025 am 09:54 AM

Python을 사용하여 PDF 문서를 사용하는 방법

Django 응용 프로그램에서 Redis를 사용하여 캐시하는 방법 Django 응용 프로그램에서 Redis를 사용하여 캐시하는 방법 Mar 02, 2025 am 10:10 AM

Django 응용 프로그램에서 Redis를 사용하여 캐시하는 방법

NLTK (Natural Language Toolkit) 소개 NLTK (Natural Language Toolkit) 소개 Mar 01, 2025 am 10:05 AM

NLTK (Natural Language Toolkit) 소개

Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까? Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까? Mar 10, 2025 pm 06:52 PM

Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까?

See all articles