如何在Python中散列大文件而不消耗内存?

Barbara Streisand
发布: 2024-10-20 11:06:30
原创
819 人浏览过

How to Hash Large Files in Python without Memory Overconsumption?

在 Python 中计算大文件的 MD5 哈希值

Python 的 hashlib 模块提供了一个用于计算加密哈希值的便捷接口。然而,对于超出系统内存的超大文件,直接使用 hashlib 可能会出现问题。

解决方案:渐进式哈希

为了解决这个问题,我们采用渐进式哈希通过以可管理的块读取文件。这种方法可确保对整个文件内容进行哈希处理,而不会消耗过多的内存。以下是实现此技术的示例 Python 函数:

<code class="python">import hashlib

def md5_for_file(f):
    block_size = 2**20
    md5 = hashlib.md5()
    while True:
        data = f.read(block_size)
        if not data:
            break
        md5.update(data)
    return md5.digest()</code>
登录后复制

要计算大文件的 MD5 哈希值,您可以按如下方式调用该函数:

<code class="python">with open("filename", "rb") as f:
    md5 = md5_for_file(f)</code>
登录后复制

注意在文件模式下

确保使用“rb”以二进制模式打开文件以获得准确的结果。使用“r”可能会导致计算错误。

其他注意事项

为了方便起见,下面介绍了该函数的改进版本:

<code class="python">import hashlib
import os

def generate_file_md5(rootdir, filename):
    m = hashlib.md5()
    with open(os.path.join(rootdir, filename), "rb") as f:
        buf = f.read()
        while buf:
            m.update(buf)
            buf = f.read()
    return m.hexdigest()</code>
登录后复制

建议使用 jacksum 等外部工具交叉检查计算出的哈希值以验证准确性。

以上是如何在Python中散列大文件而不消耗内存?的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:php
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责声明 Sitemap
PHP中文网:公益在线PHP培训,帮助PHP学习者快速成长!