メモリの過負荷を発生させずに Python で大きなファイルの MD5 ハッシュを計算する方法-Python チュートリアル-php.cn

メモリの過負荷を発生させずに Python で大きなファイルの MD5 ハッシュを計算する方法

Linda Hamilton

リリース： 2024-10-20 10:13:30

オリジナル

918 人が閲覧しました

How to Calculate MD5 Hashes for Large Files in Python without Memory Overloading?

Python で大きなファイルの MD5 ハッシュを計算する

概要

次の MD5 ハッシュを決定する大きなファイルのサイズが利用可能なメモリを超えると、問題が発生する可能性があります。この記事では、ファイル全体をメモリにロードせずに MD5 ハッシュを計算する実用的なソリューションを紹介します。

ソリューション

大きなファイルの MD5 ハッシュを計算するには、以下を読むことが重要です。それらを管理可能な塊に分割します。次のコードスニペットはこれを示しています。

<code class="python">def md5_for_file(f, block_size=2**20):
    md5 = hashlib.md5()
    while True:
        data = f.read(block_size)
        if not data:
            break
        md5.update(data)
    return md5.digest()</code>

ログイン後にコピー

適切なブロックサイズを指定することで、この関数はファイルをチャンク単位で読み取り、各チャンクで MD5 ハッシュを継続的に更新します。

拡張コード

プロセスを合理化するには、次の拡張コードを検討してください。

<code class="python">def generate_file_md5(rootdir, filename, blocksize=2**20):
    m = hashlib.md5()
    with open(os.path.join(rootdir, filename), "rb") as f:
        while True:
            buf = f.read(blocksize)
            if not buf:
                break
            m.update(buf)
    return m.hexdigest()</code>

ログイン後にコピー

ここでは、バイナリデータを正しく処理するために、ファイルはバイナリモード (「rb」) で開かれています。次に、関数はファイルを反復処理し、ハッシュを更新し、最終ハッシュの 16 進表現を返します。

結果のクロスチェック

精度を確保するには、クロスを考慮してください。 -「jacksum」のような専用ツールで結果を確認する: