Extrahieren von Bildern mit nativer Auflösung aus PDFs in Python
Für eine genaue Bildextraktion aus PDFs ist es wichtig, die ursprüngliche Auflösung und das Originalformat beizubehalten Bilder. PyMuPDF bietet eine praktische Lösung für diese Aufgabe.
Importieren Sie zunächst das PyMuPDF-Modul und öffnen Sie die Ziel-PDF-Datei:
<code class="python">import fitz doc = fitz.open("file.pdf")</code>
Durchlaufen Sie die Seiten und extrahieren Sie die Bilder mit getPageImageList:
<code class="python">for i in range(len(doc)): for img in doc.getPageImageList(i): xref = img[0] pix = fitz.Pixmap(doc, xref)</code>
Je nach Bildtyp schreiben Sie das Bild als PNG oder konvertieren Sie CMYK-Bilder in RGB, bevor Sie es als PNG schreiben:
<code class="python">if pix.n < 5: pix.writePNG("p%s-%s.png" % (i, xref)) else: pix1 = fitz.Pixmap(fitz.csRGB, pix) pix1.writePNG("p%s-%s.png" % (i, xref))</code>
Hier finden Sie zusätzliche Ressourcen zum Erkunden:
Mit dieser Python-Lösung können Sie Bilder effizient aus PDFs extrahieren und dabei ihre native Auflösung und ihr natives Format beibehalten, um eine genaue Reproduktion und Analyse zu gewährleisten.
Das obige ist der detaillierte Inhalt vonSo extrahieren Sie Bilder mit nativer Auflösung aus PDFs mit Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!