在某些場景下,需要計算超出可用RAM的大檔案的MD5雜湊。原生 Python 函數 hashlib.md5() 不適合這種情況,因為它需要將整個檔案載入到記憶體中。
要克服此限制,一種實用的方法是以可管理的區塊讀取檔案並迭代更新雜湊值。這樣可以在不超過記憶體限制的情況下進行高效率的哈希計算。
<code class="python">import hashlib def md5_for_file(f, block_size=2**20): md5 = hashlib.md5() while True: data = f.read(block_size) if not data: break md5.update(data) return md5.digest()</code>
要計算檔案的MD5 哈希,請使用下列語法:
<code class="python">with open(filename, 'rb') as f: md5_hash = md5_for_file(f)</code>
md5_hash 變數將包含計算出的MD5 雜湊值作為類似位元組的物件。
確保以二進位模式開啟檔案('rb ')以避免錯誤的結果。對於全面的檔案處理,請考慮以下函數:
<code class="python">import os import hashlib def generate_file_md5(rootdir, filename, blocksize=2**20): m = hashlib.md5() with open(os.path.join(rootdir, filename), 'rb') as f: while True: buf = f.read(blocksize) if not buf: break m.update(buf) return m.hexdigest()</code>
此函數採用檔案路徑並以十六進位字串形式傳回 MD5 雜湊值。
透過利用這些技術,您可以有效地計算大檔案的 MD5 雜湊值不會遇到記憶體限制。
以上是如何在 Python 中高效計算大檔案的 MD5 雜湊值的詳細內容。更多資訊請關注PHP中文網其他相關文章!