pyodbc를 사용하여 MS SQL Server에서 대량 삽입 작업을 어떻게 최적화할 수 있습니까?

Susan Sarandon
풀어 주다: 2024-11-02 22:44:30
원래의
489명이 탐색했습니다.

How can I optimize bulk insert operations in MS SQL Server using pyodbc?

pyodbc를 사용하여 MS SQL Server에서 대량 삽입 작업 최적화

Python 코드에서 MS SQL Server에 대용량 데이터를 효율적으로 삽입하는 과제 pyodbc를 사용하려면 신중한 고려가 필요합니다. 개별 삽입을 반복적으로 실행하는 것은 간단해 보일 수 있지만, 특히 1,300,000개 이상의 행이 포함된 데이터 세트를 처리할 때 심각한 성능 병목 현상이 발생할 수 있습니다.

한 가지 잠재적인 해결책은 T-SQL BULK INSERT 명령을 활용하는 것입니다. 데이터 수집을 가속화합니다. 그러나 이 접근 방식을 사용하려면 데이터 파일이 SQL Server 인스턴스와 동일한 컴퓨터 또는 서버에 액세스할 수 있는 네트워크 위치에 있어야 합니다. 이 조건을 충족할 수 없는 경우 대체 옵션을 찾아야 합니다.

pyodbc의 Fast ExecuteMany 기능 탐색

Pyodbc 버전 4.0.19에는 강력한 성능 최적화 기술인 Cursor#가 도입되었습니다. fast_executemany. 이 기능을 활성화하면 데이터베이스 연결이 서버에 대한 단일 왕복 내에서 여러 개의 일괄 매개변수 실행을 실행할 수 있습니다.

fast_executemany를 활용하려면 코드에 다음 줄을 추가하기만 하면 됩니다.

<code class="python">crsr.fast_executemany = True</code>
로그인 후 복사

이 설정은 삽입 속도를 획기적으로 향상시킬 수 있습니다. 벤치마크 테스트에서는 fast_executemany를 활성화한 경우 1초 남짓 만에 데이터베이스에 1000개의 행이 삽입되었는데, 이는 이 최적화를 사용하지 않은 경우 22초가 소요된 것과 비교됩니다.

루프 실행 최적화

fast_executemany를 사용하는 것 외에도 루프 실행 성능을 미세 조정하는 추가 전략이 있습니다.

  • 일괄 매개변수 목록: 행을 반복하고 개별 삽입 문을 실행하는 대신 , 데이터를 일괄 처리로 그룹화하고 여러 행을 동시에 삽입하려면 Execmany를 사용하는 것이 좋습니다.
  • Pandas DataFrames를 사용한 대량 삽입: 소스 데이터가 Pandas DataFrame에 저장된 경우 pyodbc의 to_sql( ) 대량 삽입 작업을 수행하는 메서드입니다. 이 방법은 최적화된 데이터베이스별 삽입 기술을 활용하여 성능을 크게 향상시킬 수 있습니다.
  • 데이터베이스 연결 풀링: 여러 동시 요청을 처리할 것으로 예상되는 경우 연결 풀링을 구현하여 열기와 관련된 오버헤드를 줄이는 것을 고려하세요. 데이터베이스 연결을 닫습니다.

이러한 최적화를 구현하면 pyodbc를 사용하여 MS SQL Server에 대량의 데이터를 삽입하는 프로세스를 획기적으로 가속화할 수 있습니다.

위 내용은 pyodbc를 사용하여 MS SQL Server에서 대량 삽입 작업을 어떻게 최적화할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿