Python을 사용하여 리샘플링 없이 PDF에서 고해상도 이미지를 추출하는 방법은 무엇입니까?-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Python을 사용하여 리샘플링 없이 PDF에서 고해상도 이미지를 추출하는 방법은 무엇입니까?

Mary-Kate Olsen

Oct 22, 2024 am 07:52 AM

How to Extract High-Resolution Images from PDFs Without Resampling Using Python?

Python에서 리샘플링 없이 PDF에서 이미지를 추출하는 방법은 무엇입니까?

PDF 문서에서 원본 해상도와 형식으로 이미지를 추출하려면 리샘플링을 수행하면 PyMuPDF 모듈을 활용할 수 있습니다. 이 Python 모듈을 사용하면 PDF 파일을 효율적으로 처리하고 해당 내용을 조작할 수 있습니다. PyMuPDF를 사용하여 이미지를 추출하는 방법은 다음과 같습니다.

<code class="python">import fitz

doc = fitz.open("input.pdf")
for page_num in range(len(doc)):
    for img in doc.getPageImageList(page_num):
        xref = img[0]
        pix = fitz.Pixmap(doc, xref)
        if pix.n < 5:  # Check if it's grayscale or RGB
            pix.writePNG(f"page_{page_num}_img_{xref}.png")
        else:  # Convert CMYK to RGB before saving
            pix1 = fitz.Pixmap(fitz.csRGB, pix)
            pix1.writePNG(f"page_{page_num}_img_{xref}.png")</code>

로그인 후 복사

이 코드에서는 PDF 내의 페이지와 이미지를 반복합니다. 'xref' 변수는 이미지의 고유 식별자를 나타냅니다. 이미지의 색상 공간(RGB 또는 CMYK)에 따라 PNG 이미지를 직접 작성하거나 저장하기 전에 CMYK를 RGB로 변환합니다.

또는 fitz 버전 1.19.6을 사용하는 경우 다음을 사용할 수 있습니다. 더 나은 가시성을 위해 진행률 표시줄을 사용하여 추출을 수행하려면 다음 코드를 사용하세요.

<code class="python">import os
import fitz
from tqdm import tqdm

workdir = "path_to_pdf_folder"

for each_path in os.listdir(workdir):
    if ".pdf" in each_path:
        doc = fitz.Document(os.path.join(workdir, each_path))

        for i in tqdm(range(len(doc)), desc="pages"):
            for img in tqdm(doc.get_page_images(i), desc="page_images"):
                xref = img[0]
                image = doc.extract_image(xref)
                pix = fitz.Pixmap(doc, xref)
                pix.save(os.path.join(workdir, f"{each_path[:-4]}_p{i}-{xref}.png"))</code>

로그인 후 복사

이 코드 조각을 사용하면 원본 해상도와 형식을 유지하면서 PDF에서 이미지를 추출할 수 있습니다.

위 내용은 Python을 사용하여 리샘플링 없이 PDF에서 고해상도 이미지를 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.