Python を使用して PDF からネイティブ解像度の画像を抽出する方法-Python チュートリアル-php.cn

Python を使用して PDF からネイティブ解像度の画像を抽出する方法

Barbara Streisand

リリース： 2024-10-22 07:50:03

オリジナル

1105 人が閲覧しました

How to Extract Native Resolution Images from PDFs Using Python

Python で PDF からネイティブ解像度の画像を抽出する

PDF から画像を正確に抽出するには、元の解像度と形式を維持することが重要です。画像。 PyMuPDF は、このタスクに便利なソリューションを提供します。

まず、PyMuPDF モジュールをインポートし、ターゲット PDF ファイルを開きます:

<code class="python">import fitz
doc = fitz.open("file.pdf")</code>

ログイン後にコピー

getPageImageList を使用してページを反復処理し、画像を抽出します。

<code class="python">for i in range(len(doc)):
    for img in doc.getPageImageList(i):
        xref = img[0]
        pix = fitz.Pixmap(doc, xref)</code>

ログイン後にコピー

画像の種類に応じて、画像を PNG として書き込むか、PNG として書き込む前に CMYK 画像を RGB に変換します:

<code class="python">if pix.n < 5:
            pix.writePNG("p%s-%s.png" % (i, xref))
else:               
            pix1 = fitz.Pixmap(fitz.csRGB, pix)
            pix1.writePNG("p%s-%s.png" % (i, xref))</code>

ログイン後にコピー

探索する追加リソースは次のとおりです:

[PyMuPDF 画像抽出ドキュメント](https://pymupdf.readthedocs.io/en/latest/image-extraction.html)
[FitZ 1.19.6 用の改良された FitZ 画像抽出]( https://stackoverflow.com/a/74345380)

この Python ソリューションを使用すると、ネイティブの解像度と形式を維持しながら PDF から画像を効率的に抽出でき、正確な再現と分析を保証できます。

以上がPython を使用して PDF からネイティブ解像度の画像を抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。