如何使用 Python 从 PDF 中提取高分辨率图像而无需重新采样？-Python教程-PHP中文网

首页

后端开发

Python教程

如何使用 Python 从 PDF 中提取高分辨率图像而无需重新采样？

Oct 22, 2024 am 07:52 AM

How to Extract High-Resolution Images from PDFs Without Resampling Using Python?

如何在 Python 中从 PDF 中提取图像而无需重新采样？

以原始分辨率和格式从 PDF 文档中提取图像，无需重新采样重新采样，您可以使用 PyMuPDF 模块。该 Python 模块允许您高效地处理 PDF 文件并操作其内容。以下是如何使用 PyMuPDF 提取图像：

<code class="python">import fitz
 
doc = fitz.open("input.pdf")
for page_num in range(len(doc)):
    for img in doc.getPageImageList(page_num):
        xref = img[0]
        pix = fitz.Pixmap(doc, xref)
        if pix.n &lt; 5:  # Check if it's grayscale or RGB
            pix.writePNG(f"page_{page_num}_img_{xref}.png")
        else:  # Convert CMYK to RGB before saving
            pix1 = fitz.Pixmap(fitz.csRGB, pix)
            pix1.writePNG(f"page_{page_num}_img_{xref}.png")</code>

登录后复制

在此代码中，我们迭代 PDF 中的页面和图像。 “xref”变量表示图像的唯一标识符。根据图像的颜色空间（RGB 或 CMYK），我们可以直接写入 PNG 图像，也可以在保存之前将 CMYK 转换为 RGB。

或者，如果您使用的是 fitz 版本 1.19.6，则可以使用使用以下代码执行提取，并带有进度条以获得更好的可视性：

<code class="python">import os
import fitz
from tqdm import tqdm
 
workdir = "path_to_pdf_folder"
 
for each_path in os.listdir(workdir):
    if ".pdf" in each_path:
        doc = fitz.Document(os.path.join(workdir, each_path))
 
        for i in tqdm(range(len(doc)), desc="pages"):
            for img in tqdm(doc.get_page_images(i), desc="page_images"):
                xref = img[0]
                image = doc.extract_image(xref)
                pix = fitz.Pixmap(doc, xref)
                pix.save(os.path.join(workdir, f"{each_path[:-4]}_p{i}-{xref}.png"))</code>