Mengira Cincang MD5 untuk Fail Besar dalam Python
Pengenalan
Menentukan cincang MD5 bagi fail besar boleh menimbulkan cabaran apabila saiznya melebihi memori yang tersedia. Artikel ini membentangkan penyelesaian praktikal untuk mengira cincang MD5 tanpa memuatkan keseluruhan fail ke dalam memori.
Penyelesaian
Untuk mengira cincang MD5 bagi fail besar, penting untuk membaca mereka dalam ketulan terurus. Coretan kod berikut menunjukkan perkara ini:
<code class="python">def md5_for_file(f, block_size=2**20): md5 = hashlib.md5() while True: data = f.read(block_size) if not data: break md5.update(data) return md5.digest()</code>
Dengan menyatakan saiz blok yang sesuai, fungsi ini membaca fail dalam ketulan dan terus mengemas kini cincangan MD5 dengan setiap ketul.
Dipertingkatkan Kod
Untuk menyelaraskan proses, pertimbangkan kod dipertingkat berikut:
<code class="python">def generate_file_md5(rootdir, filename, blocksize=2**20): m = hashlib.md5() with open(os.path.join(rootdir, filename), "rb") as f: while True: buf = f.read(blocksize) if not buf: break m.update(buf) return m.hexdigest()</code>
Di sini, fail dibuka dalam mod binari ("rb") untuk mengendalikan data binari dengan betul. Fungsi itu kemudian melelang melalui fail, mengemas kini cincang dan mengembalikan perwakilan heksadesimal cincang akhir.
Hasil Semakan Silang
Untuk memastikan ketepatan, pertimbangkan silang -menyemak keputusan menggunakan alat khusus seperti "jacksum":
jacksum -a md5 <filename>
Ini akan memberikan pengiraan cincang MD5 bebas untuk perbandingan.
Atas ialah kandungan terperinci Bagaimana untuk Mengira Hashes MD5 untuk Fail Besar dalam Python tanpa Memori Lebihan?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!