Python の PDFMiner を使用して PDF からテキストを抽出する方法

Patricia Arquette
リリース: 2024-10-17 14:26:02
オリジナル
685 人が閲覧しました

How to Extract Text from PDFs with PDFMiner in Python?

Python の PDFMiner を使用して PDF からテキストを抽出する

質問:

どのように抽出できますかPython で PDFMiner を使用して PDF ファイルからテキストを取得するには?

回答:

PDFMiner の API の最近の更新により、一部の既存のドキュメントに古いコードが含まれている可能性があります。最新バージョンの PDFMiner を使用して PDF ファイルからテキストを抽出するには、次の手順に従います。

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def extract_pdf_text(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos = set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password, caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text
ログイン後にコピー

この更新されたコードは、PDFMiner の構文の変更に対応しています。 Python 3.x、3.7、および 2018 年 11 月にリリースされた pdfminer.six を使用した Python 3.7、2019 年 10 月 3 日で検証されたとおり、PDF ファイルからテキストを正常に抽出できます。

以上がPython の PDFMiner を使用して PDF からテキストを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!