如何使用 Python 从 PDF 中提取本机分辨率图像

Barbara Streisand
发布: 2024-10-22 07:50:03
原创
960 人浏览过

How to Extract Native Resolution Images from PDFs Using Python

使用 Python 从 PDF 中提取本机分辨率图像

为了从 PDF 中准确提取图像,必须保持原始分辨率和格式图像。 PyMuPDF 为此任务提供了一个便捷的解决方案。

首先,导入 PyMuPDF 模块并打开目标 PDF 文件:

<code class="python">import fitz
doc = fitz.open("file.pdf")</code>
登录后复制

迭代页面并使用 getPageImageList 提取图像:

<code class="python">for i in range(len(doc)):
    for img in doc.getPageImageList(i):
        xref = img[0]
        pix = fitz.Pixmap(doc, xref)</code>
登录后复制

根据图像类型,将图像写入为 PNG 或将 CMYK 图像转换为 RGB,然后再写入为 PNG:

<code class="python">if pix.n < 5:
            pix.writePNG("p%s-%s.png" % (i, xref))
else:               
            pix1 = fitz.Pixmap(fitz.csRGB, pix)
            pix1.writePNG("p%s-%s.png" % (i, xref))</code>
登录后复制

以下是可供探索的其他资源:

  • [PyMuPDF 图像提取文档](https://pymupdf.readthedocs.io/en/latest/image-extraction.html)
  • [FitZ 1.19.6 改进的 FitZ 图像提取]( https://stackoverflow.com/a/74345380)

通过此 Python 解决方案,您可以高效地从 PDF 中提取图像,同时保留其原始分辨率和格式,确保准确的再现和分析。

以上是如何使用 Python 从 PDF 中提取本机分辨率图像的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:php
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责声明 Sitemap
PHP中文网:公益在线PHP培训,帮助PHP学习者快速成长!