pyodbc를 사용하여 MS SQL Server에서 대량 삽입 작업 최적화
Python 코드에서 MS SQL Server에 대용량 데이터를 효율적으로 삽입하는 과제 pyodbc를 사용하려면 신중한 고려가 필요합니다. 개별 삽입을 반복적으로 실행하는 것은 간단해 보일 수 있지만, 특히 1,300,000개 이상의 행이 포함된 데이터 세트를 처리할 때 심각한 성능 병목 현상이 발생할 수 있습니다.
한 가지 잠재적인 해결책은 T-SQL BULK INSERT 명령을 활용하는 것입니다. 데이터 수집을 가속화합니다. 그러나 이 접근 방식을 사용하려면 데이터 파일이 SQL Server 인스턴스와 동일한 컴퓨터 또는 서버에 액세스할 수 있는 네트워크 위치에 있어야 합니다. 이 조건을 충족할 수 없는 경우 대체 옵션을 찾아야 합니다.
pyodbc의 Fast ExecuteMany 기능 탐색
Pyodbc 버전 4.0.19에는 강력한 성능 최적화 기술인 Cursor#가 도입되었습니다. fast_executemany. 이 기능을 활성화하면 데이터베이스 연결이 서버에 대한 단일 왕복 내에서 여러 개의 일괄 매개변수 실행을 실행할 수 있습니다.
fast_executemany를 활용하려면 코드에 다음 줄을 추가하기만 하면 됩니다.
<code class="python">crsr.fast_executemany = True</code>
이 설정은 삽입 속도를 획기적으로 향상시킬 수 있습니다. 벤치마크 테스트에서는 fast_executemany를 활성화한 경우 1초 남짓 만에 데이터베이스에 1000개의 행이 삽입되었는데, 이는 이 최적화를 사용하지 않은 경우 22초가 소요된 것과 비교됩니다.
루프 실행 최적화
fast_executemany를 사용하는 것 외에도 루프 실행 성능을 미세 조정하는 추가 전략이 있습니다.
이러한 최적화를 구현하면 pyodbc를 사용하여 MS SQL Server에 대량의 데이터를 삽입하는 프로세스를 획기적으로 가속화할 수 있습니다.
위 내용은 pyodbc를 사용하여 MS SQL Server에서 대량 삽입 작업을 어떻게 최적화할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!