首頁 > 後端開發 > Python教學 > 如何在Python中散列大檔案而不消耗記憶體?

如何在Python中散列大檔案而不消耗記憶體?

Barbara Streisand
發布: 2024-10-20 11:06:30
原創
957 人瀏覽過

How to Hash Large Files in Python without Memory Overconsumption?

在Python 中計算大檔案的MD5 雜湊值

Python 的hashlib 模組提供了一個用於計算加密雜湊值的便捷接口。然而,對於超出系統記憶體的超大文件,直接使用 hashlib 可能會出現問題。

解決方案:漸進式雜湊

為了解決這個問題,我們採用漸進式雜湊來透過以可管理的區塊讀取檔案。這種方法可確保對整個檔案內容進行哈希處理,而不會消耗過多的記憶體。以下是實作此技術的範例Python 函數:

1

2

3

4

5

6

7

8

9

10

11

<code class="python">import hashlib

 

def md5_for_file(f):

    block_size = 2**20

    md5 = hashlib.md5()

    while True:

        data = f.read(block_size)

        if not data:

            break

        md5.update(data)

    return md5.digest()</code>

登入後複製

要計算大檔案的MD5 雜湊值,您可以如下呼叫函數:

1

2

<code class="python">with open("filename", "rb") as f:

    md5 = md5_for_file(f)</code>

登入後複製

注意在檔案模式下

確保使用「rb」以二進位模式開啟檔案以獲得準確的結果。使用“r”可能會導致計算錯誤。

其他注意事項

為了方便起見,下面介紹了該函數的改進版本:

1

2

3

4

5

6

7

8

9

10

11

<code class="python">import hashlib

import os

 

def generate_file_md5(rootdir, filename):

    m = hashlib.md5()

    with open(os.path.join(rootdir, filename), "rb") as f:

        buf = f.read()

        while buf:

            m.update(buf)

            buf = f.read()

    return m.hexdigest()</code>

登入後複製

建議使用jacksum 等外部工具交叉檢查計算出的雜湊值以驗證準確性。

以上是如何在Python中散列大檔案而不消耗記憶體?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板