> 백엔드 개발 > 파이썬 튜토리얼 > 메모리 과잉 소비 없이 Python에서 대용량 파일을 해시하는 방법은 무엇입니까?

메모리 과잉 소비 없이 Python에서 대용량 파일을 해시하는 방법은 무엇입니까?

Barbara Streisand
풀어 주다: 2024-10-20 11:06:30
원래의
914명이 탐색했습니다.

How to Hash Large Files in Python without Memory Overconsumption?

Python에서 대용량 파일에 대한 MD5 해시 계산

Python의 hashlib 모듈은 암호화 해시 계산을 위한 편리한 인터페이스를 제공합니다. 그러나 크기가 시스템 메모리를 초과하는 매우 큰 파일의 경우 hashlib를 직접 사용하는 것이 문제가 될 수 있습니다.

해결책: 프로그레시브 해싱

이 문제를 해결하기 위해 프로그레시브 해싱을 사용합니다. 관리 가능한 청크로 파일을 읽습니다. 이 접근 방식을 사용하면 과도한 메모리를 소비하지 않고 전체 파일 콘텐츠가 해시됩니다. 다음은 이 기술을 구현하는 샘플 Python 함수입니다.

<code class="python">import hashlib

def md5_for_file(f):
    block_size = 2**20
    md5 = hashlib.md5()
    while True:
        data = f.read(block_size)
        if not data:
            break
        md5.update(data)
    return md5.digest()</code>
로그인 후 복사

대용량 파일의 MD5 해시를 계산하려면 다음과 같이 함수를 호출할 수 있습니다.

<code class="python">with open("filename", "rb") as f:
    md5 = md5_for_file(f)</code>
로그인 후 복사

참고 파일 모드

정확한 결과를 얻으려면 "rb"를 사용하여 바이너리 모드에서 파일을 열어야 합니다. "r"을 사용하면 잘못된 계산이 발생할 수 있습니다.

추가 고려 사항

편의를 위해 함수의 개선된 버전이 아래에 제시됩니다.

<code class="python">import hashlib
import os

def generate_file_md5(rootdir, filename):
    m = hashlib.md5()
    with open(os.path.join(rootdir, filename), "rb") as f:
        buf = f.read()
        while buf:
            m.update(buf)
            buf = f.read()
    return m.hexdigest()</code>
로그인 후 복사

계산된 해시를 jacksum과 같은 외부 도구로 교차 확인하여 정확성을 확인하는 것이 좋습니다.

위 내용은 메모리 과잉 소비 없이 Python에서 대용량 파일을 해시하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿