Mengira Hash MD5 Fail Besar dalam Python
Semasa menggunakan modul hashlib Python untuk mengira cincangan MD5 bagi fail adalah mudah untuk kecil fail, ia menjadi tidak praktikal untuk fail besar yang melebihi memori yang tersedia. Artikel ini meneroka penyelesaian praktikal untuk cabaran ini.
Untuk memintas had memori, hashlib perlu diberikan akses kepada sebahagian daripada fail dan bukannya keseluruhan fail sekaligus. Fungsi Python berikut membaca fail dalam ketulan saiz yang ditentukan dan mengumpul cincang MD5 separa. Dengan menetapkan saiz yang sesuai untuk parameter block_size (lalai: 2^20), ia menguruskan saiz fail dengan berkesan melebihi had RAM.
<code class="python">def md5_for_file(f, block_size=2**20): md5 = hashlib.md5() while True: data = f.read(block_size) if not data: break md5.update(data) return md5.digest()</code>
Untuk memastikan hasil yang betul, buka fail dalam mod binari dengan 'rb' adalah penting.
Untuk pendekatan yang lebih komprehensif, fungsi pembantu boleh merangkumi semua langkah yang diperlukan:
<code class="python">def generate_file_md5(rootdir, filename, blocksize=2**20): m = hashlib.md5() with open(os.path.join(rootdir, filename), "rb") as f: while True: buf = f.read(blocksize) if not buf: break m.update(buf) return m.hexdigest()</code>
Semak silang keputusan menggunakan alatan seperti jacksum memastikan ketepatan cincang MD5 yang dikira .
Atas ialah kandungan terperinci Bagaimana Mengira Hashes MD5 Fail Besar dalam Python Tanpa Had Memori?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!