在Python 中使用PDFMiner 從PDF 文件中提取文字
從PDF 文件中提取文字是處理結構化資料時的一項常見任務。 Python 提供了 PDFMiner 函式庫來促進此過程。然而,最近對 PDFMiner API 的更新使許多先前的範例變得過時。
為了解決這個問題,讓我們探索使用目前版本的PDFMiner 進行文字擷取的工作範例:
<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from io import StringIO def convert_pdf_to_txt(path): rsrcmgr = PDFResourceManager() retstr = StringIO() codec = 'utf-8' laparams = LAParams() device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams) fp = open(path, 'rb') interpreter = PDFPageInterpreter(rsrcmgr, device) password = "" maxpages = 0 caching = True pagenos=set() for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True): interpreter.process_page(page) text = retstr.getvalue() fp.close() device.close() retstr.close() return text</code>
This函數將PDF 檔案路徑作為輸入,並以字串形式返回提取的文字。它可以處理常見場景,例如受密碼保護的 PDF 和多頁文件。
透過使用最新版本的 PDFMiner 並實現此功能,您可以在 Python 應用程式中有效地從 PDF 文件中提取文字。
以上是如何使用 Python 中的 PDFMiner 以及最新的 API 更改從 PDF 文件中提取文字?的詳細內容。更多資訊請關注PHP中文網其他相關文章!