리샘플링 없이 Python에서 PDF에서 기본 해상도 이미지 추출
레이아웃을 유지하면서 기본 해상도와 형식으로 PDF에서 이미지를 추출하는 방법은 다음과 같습니다. 도전. 그러나 Python의 PyMuPDF 모듈은 간단한 솔루션을 제공합니다.
PyMuPDF 사용
PyMuPDF는 이미지를 PNG 파일로 출력하여 고해상도를 보장하고 원본 형식(예: TIFF)을 유지할 수 있습니다. , JPEG). 다음 코드는 그 사용법을 보여줍니다.
<code class="python">import fitz doc = fitz.open("file.pdf") for i in range(len(doc)): for img in doc.getPageImageList(i): xref = img[0] pix = fitz.Pixmap(doc, xref) if pix.n < 5: # GRAY or RGB pix.writePNG("p%s-%s.png" % (i, xref)) else: # CMYK pix1 = fitz.Pixmap(fitz.csRGB, pix) pix1.writePNG("p%s-%s.png" % (i, xref)) pix1 = None pix = None</code>
fitz 1.19.6용 수정 버전
fitz 최신 버전(1.19.6)의 경우 다음이 수정되었습니다. 코드를 사용할 수 있습니다:
<code class="python">import os import fitz from tqdm import tqdm workdir = "your_folder" for each_path in os.listdir(workdir): if ".pdf" in each_path: doc = fitz.Document((os.path.join(workdir, each_path))) for i in tqdm(range(len(doc)), desc="pages"): for img in tqdm(doc.get_page_images(i), desc="page_images"): xref = img[0] image = doc.extract_image(xref) pix = fitz.Pixmap(doc, xref) pix.save(os.path.join(workdir, "%s_p%s-%s.png" % (each_path[:-4], i, xref)))</code>
이 수정된 코드는 진행률 표시줄 표시를 위해 tqdm을 활용하고 이미지 추출 및 저장 프로세스를 최적화합니다.
위 내용은 치수를 변경하지 않고 Python을 사용하여 PDF에서 고해상도 이미지를 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!