Python の PDFMiner を使用して PDF ファイルからテキストを抽出する
質問:
どうすればよいですかPython で最新バージョンの PDFMiner を使用して PDF ファイルからテキストを抽出しますか?
回答:
PDFMiner は最近、API の大幅な更新を行いました。現在のバージョンを使用してテキストを抽出する方法は次のとおりです:
<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from io import StringIO def convert_pdf_to_txt(path): rsrcmgr = PDFResourceManager() retstr = StringIO() codec = 'utf-8' laparams = LAParams() device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams) fp = open(path, 'rb') interpreter = PDFPageInterpreter(rsrcmgr, device) password = "" maxpages = 0 caching = True pagenos=set() for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True): interpreter.process_page(page) text = retstr.getvalue() fp.close() device.close() retstr.close() return text</code>
注: このソリューションは、PDFMiner の最近の更新によって導入された API の変更に対処し、ライブラリの現在のバージョンとの互換性を確保します。
以上がPython で最新バージョンの PDFMiner を使用して PDF ファイルからテキストを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。