如何在 Python 中高效計算大檔案的 MD5 雜湊值-Python教學-PHP中文網

如何在 Python 中高效計算大檔案的 MD5 雜湊值

Linda Hamilton

發布： 2024-10-20 09:52:30

原創

1163 人瀏覽過

How to Efficiently Compute MD5 Hash of Large Files in Python

在Python中高效計算大檔案的MD5雜湊

在某些場景下，需要計算超出可用RAM的大檔案的MD5雜湊。原生 Python 函數 hashlib.md5() 不適合這種情況，因為它需要將整個檔案載入到記憶體中。

要克服此限制，一種實用的方法是以可管理的區塊讀取檔案並迭代更新雜湊值。這樣可以在不超過記憶體限制的情況下進行高效率的哈希計算。

程式碼實作

<code class="python">import hashlib
 
def md5_for_file(f, block_size=2**20):
    md5 = hashlib.md5()
    while True:
        data = f.read(block_size)
        if not data:
            break
        md5.update(data)
    return md5.digest()</code>

登入後複製

用法範例

要計算檔案的MD5 哈希，請使用下列語法：

1 2	`<code` `class="python">with open(filename,` `'rb')` `as` `f:` `md5_hash = md5_for_file(f)</code>`

登入後複製

md5_hash 變數將包含計算出的MD5 雜湊值作為類似位元組的物件。

其他注意事項

確保以二進位模式開啟檔案（'rb '）以避免錯誤的結果。對於全面的檔案處理，請考慮以下函數：

<code class="python">import os
import hashlib
 
def generate_file_md5(rootdir, filename, blocksize=2**20):
    m = hashlib.md5()
    with open(os.path.join(rootdir, filename), 'rb') as f:
        while True:
            buf = f.read(blocksize)
            if not buf:
                break
            m.update(buf)
    return m.hexdigest()</code>