首页 后端开发 Python教程 如何使用 Python 从 PDF 中提取高分辨率图像而无需重新采样?

如何使用 Python 从 PDF 中提取高分辨率图像而无需重新采样?

Oct 22, 2024 am 07:52 AM

How to Extract High-Resolution Images from PDFs Without Resampling Using Python?

如何在 Python 中从 PDF 中提取图像而无需重新采样?

以原始分辨率和格式从 PDF 文档中提取图像,无需重新采样重新采样,您可以使用 PyMuPDF 模块。该 Python 模块允许您高效地处理 PDF 文件并操作其内容。以下是如何使用 PyMuPDF 提取图像:

1

2

3

4

5

6

7

8

9

10

11

12

<code class="python">import fitz

 

doc = fitz.open("input.pdf")

for page_num in range(len(doc)):

    for img in doc.getPageImageList(page_num):

        xref = img[0]

        pix = fitz.Pixmap(doc, xref)

        if pix.n &lt; 5:  # Check if it's grayscale or RGB

            pix.writePNG(f"page_{page_num}_img_{xref}.png")

        else:  # Convert CMYK to RGB before saving

            pix1 = fitz.Pixmap(fitz.csRGB, pix)

            pix1.writePNG(f"page_{page_num}_img_{xref}.png")</code>

登录后复制

在此代码中,我们迭代 PDF 中的页面和图像。 “xref”变量表示图像的唯一标识符。根据图像的颜色空间(RGB 或 CMYK),我们可以直接写入 PNG 图像,也可以在保存之前将 CMYK 转换为 RGB。

或者,如果您使用的是 fitz 版本 1.19.6,则可以使用使用以下代码执行提取,并带有进度条以获得更好的可视性:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

<code class="python">import os

import fitz

from tqdm import tqdm

 

workdir = "path_to_pdf_folder"

 

for each_path in os.listdir(workdir):

    if ".pdf" in each_path:

        doc = fitz.Document(os.path.join(workdir, each_path))

 

        for i in tqdm(range(len(doc)), desc="pages"):

            for img in tqdm(doc.get_page_images(i), desc="page_images"):

                xref = img[0]

                image = doc.extract_image(xref)

                pix = fitz.Pixmap(doc, xref)

                pix.save(os.path.join(workdir, f"{each_path[:-4]}_p{i}-{xref}.png"))</code>

登录后复制

这些代码片段将使您能够从 PDF 中提取图像,并保留其原始分辨率和格式。

以上是如何使用 Python 从 PDF 中提取高分辨率图像而无需重新采样?的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门文章

仓库:如何复兴队友
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 周前 By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒险:如何获得巨型种子
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热门文章

仓库:如何复兴队友
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 周前 By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒险:如何获得巨型种子
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热门文章标签

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

我如何使用美丽的汤来解析HTML? 我如何使用美丽的汤来解析HTML? Mar 10, 2025 pm 06:54 PM

我如何使用美丽的汤来解析HTML?

python中的图像过滤 python中的图像过滤 Mar 03, 2025 am 09:44 AM

python中的图像过滤

如何使用Python查找文本文件的ZIPF分布 如何使用Python查找文本文件的ZIPF分布 Mar 05, 2025 am 09:58 AM

如何使用Python查找文本文件的ZIPF分布

如何使用Python使用PDF文档 如何使用Python使用PDF文档 Mar 02, 2025 am 09:54 AM

如何使用Python使用PDF文档

如何在django应用程序中使用redis缓存 如何在django应用程序中使用redis缓存 Mar 02, 2025 am 10:10 AM

如何在django应用程序中使用redis缓存

如何使用TensorFlow或Pytorch进行深度学习? 如何使用TensorFlow或Pytorch进行深度学习? Mar 10, 2025 pm 06:52 PM

如何使用TensorFlow或Pytorch进行深度学习?

如何在Python中实现自己的数据结构 如何在Python中实现自己的数据结构 Mar 03, 2025 am 09:28 AM

如何在Python中实现自己的数据结构

python对象的序列化和避难所化:第1部分 python对象的序列化和避难所化:第1部分 Mar 08, 2025 am 09:39 AM

python对象的序列化和避难所化:第1部分

See all articles