在Python 中計算大檔案的MD5 雜湊值
Python 的hashlib 模組提供了一個用於計算加密雜湊值的便捷接口。然而,對於超出系統記憶體的超大文件,直接使用 hashlib 可能會出現問題。
解決方案:漸進式雜湊
為了解決這個問題,我們採用漸進式雜湊來透過以可管理的區塊讀取檔案。這種方法可確保對整個檔案內容進行哈希處理,而不會消耗過多的記憶體。以下是實作此技術的範例Python 函數:
1 2 3 4 5 6 7 8 9 10 11 | <code class = "python" >import hashlib
def md5_for_file(f):
block_size = 2**20
md5 = hashlib.md5()
while True:
data = f.read(block_size)
if not data:
break
md5.update(data)
return md5.digest()</code>
|
登入後複製
要計算大檔案的MD5 雜湊值,您可以如下呼叫函數:
1 2 | <code class = "python" >with open( "filename" , "rb" ) as f:
md5 = md5_for_file(f)</code>
|
登入後複製
注意在檔案模式下
確保使用「rb」以二進位模式開啟檔案以獲得準確的結果。使用“r”可能會導致計算錯誤。
其他注意事項
為了方便起見,下面介紹了該函數的改進版本:
1 2 3 4 5 6 7 8 9 10 11 | <code class = "python" >import hashlib
import os
def generate_file_md5(rootdir, filename):
m = hashlib.md5()
with open(os.path.join(rootdir, filename), "rb" ) as f:
buf = f.read()
while buf:
m.update(buf)
buf = f.read()
return m.hexdigest()</code>
|
登入後複製
建議使用jacksum 等外部工具交叉檢查計算出的雜湊值以驗證準確性。
以上是如何在Python中散列大檔案而不消耗記憶體?的詳細內容。更多資訊請關注PHP中文網其他相關文章!