Python で PDFMiner を使用した PDF ファイルからのテキスト抽出
PDF ファイルからのテキストの抽出は、構造化データを扱う場合の一般的なタスクです。 Python は、このプロセスを容易にする PDFMiner ライブラリを提供します。ただし、PDFMiner API の最近の更新により、以前の多くの例が廃止されました。
これに対処するために、PDFMiner の現在のバージョンを使用したテキスト抽出の実例を見てみましょう。
<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from io import StringIO def convert_pdf_to_txt(path): rsrcmgr = PDFResourceManager() retstr = StringIO() codec = 'utf-8' laparams = LAParams() device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams) fp = open(path, 'rb') interpreter = PDFPageInterpreter(rsrcmgr, device) password = "" maxpages = 0 caching = True pagenos=set() for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True): interpreter.process_page(page) text = retstr.getvalue() fp.close() device.close() retstr.close() return text</code>
これ関数は PDF ファイルのパスを入力として受け取り、抽出されたテキストを文字列として返します。パスワードで保護された PDF や複数ページのドキュメントなどの一般的なシナリオを処理します。
最新バージョンの PDFMiner を使用してこの機能を実装すると、Python アプリケーションで PDF ファイルからテキストを効率的に抽出できます。
以上が最新の API 変更を適用した Python で PDFMiner を使用して PDF ファイルからテキストを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。