ホームページ > バックエンド開発 > Python チュートリアル > Python で最新バージョンの PDFMiner を使用して PDF ファイルからテキストを抽出する方法

Python で最新バージョンの PDFMiner を使用して PDF ファイルからテキストを抽出する方法

Patricia Arquette
リリース: 2024-10-17 14:29:30
オリジナル
452 人が閲覧しました

How to Extract Text from PDF Files Using the Latest Version of PDFMiner in Python?

Python の PDFMiner を使用して PDF ファイルからテキストを抽出する

質問:

どうすればよいですかPython で最新バージョンの PDFMiner を使用して PDF ファイルからテキストを抽出しますか?

回答:

PDFMiner は最近、API の大幅な更新を行いました。現在のバージョンを使用してテキストを抽出する方法は次のとおりです:

<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text</code>
ログイン後にコピー

注: このソリューションは、PDFMiner の最近の更新によって導入された API の変更に対処し、ライブラリの現在のバージョンとの互換性を確保します。

以上がPython で最新バージョンの PDFMiner を使用して PDF ファイルからテキストを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート