如何使用 Python 中的 PDFMiner 以及最新的 API 更改從 PDF 文件中提取文字？-Python教學-PHP中文網

如何使用 Python 中的 PDFMiner 以及最新的 API 更改從 PDF 文件中提取文字？

Linda Hamilton

發布： 2024-10-17 14:23:29

原創

738 人瀏覽過

How to Extract Text from PDF Files using PDFMiner in Python with the Latest API Changes?

在Python 中使用PDFMiner 從PDF 文件中提取文字

從PDF 文件中提取文字是處理結構化資料時的一項常見任務。 Python 提供了 PDFMiner 函式庫來促進此過程。然而，最近對 PDFMiner API 的更新使許多先前的範例變得過時。

為了解決這個問題，讓我們探索使用目前版本的PDFMiner 進行文字擷取的工作範例：

<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text</code>

登入後複製

This函數將PDF 檔案路徑作為輸入，並以字串形式返回提取的文字。它可以處理常見場景，例如受密碼保護的 PDF 和多頁文件。

透過使用最新版本的 PDFMiner 並實現此功能，您可以在 Python 應用程式中有效地從 PDF 文件中提取文字。

以上是如何使用 Python 中的 PDFMiner 以及最新的 API 更改從 PDF 文件中提取文字？的詳細內容。更多資訊請關注PHP中文網其他相關文章！