Python에서 대용량 파일에 대한 MD5 해시 계산
Python의 hashlib 모듈은 암호화 해시 계산을 위한 편리한 인터페이스를 제공합니다. 그러나 크기가 시스템 메모리를 초과하는 매우 큰 파일의 경우 hashlib를 직접 사용하는 것이 문제가 될 수 있습니다.
해결책: 프로그레시브 해싱
이 문제를 해결하기 위해 프로그레시브 해싱을 사용합니다. 관리 가능한 청크로 파일을 읽습니다. 이 접근 방식을 사용하면 과도한 메모리를 소비하지 않고 전체 파일 콘텐츠가 해시됩니다. 다음은 이 기술을 구현하는 샘플 Python 함수입니다.
<code class="python">import hashlib def md5_for_file(f): block_size = 2**20 md5 = hashlib.md5() while True: data = f.read(block_size) if not data: break md5.update(data) return md5.digest()</code>
대용량 파일의 MD5 해시를 계산하려면 다음과 같이 함수를 호출할 수 있습니다.
<code class="python">with open("filename", "rb") as f: md5 = md5_for_file(f)</code>
참고 파일 모드
정확한 결과를 얻으려면 "rb"를 사용하여 바이너리 모드에서 파일을 열어야 합니다. "r"을 사용하면 잘못된 계산이 발생할 수 있습니다.
추가 고려 사항
편의를 위해 함수의 개선된 버전이 아래에 제시됩니다.
<code class="python">import hashlib import os def generate_file_md5(rootdir, filename): m = hashlib.md5() with open(os.path.join(rootdir, filename), "rb") as f: buf = f.read() while buf: m.update(buf) buf = f.read() return m.hexdigest()</code>
계산된 해시를 jacksum과 같은 외부 도구로 교차 확인하여 정확성을 확인하는 것이 좋습니다.
위 내용은 메모리 과잉 소비 없이 Python에서 대용량 파일을 해시하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!