如何在 Python 中從 PDF 文件中提取文字:用 PDFMiner 替換 PyPDF?

DDD
發布: 2024-11-13 07:32:02
原創
950 人瀏覽過

How to Extract Text from a PDF File in Python: Replacing PyPDF with PDFMiner?

使用 Python 將 PDF 轉換為文字

PDF 文件通常用於安全地共享文檔,但提取文字內容可能具有挑戰性。本題探討了能夠將 PDF 文件轉換為文字的 Python 模組。

使用者嘗試了利用 PyPDF 的程式碼,但輸出缺少空格,導致無法使用。此回應提供了替代解決方案:PDFMiner。

PDFMiner:

PDFMiner 是一個 Python 模組,可以將 PDF 檔案轉換為 HTML、SGML 或「標記 PDF」格式。標籤的 PDF 格式特別有用,因為它可以輕鬆轉換為純文字。

用法:

要使用PDFMiner,請依照下列步驟操作:

  1. 安裝PDFMiner:

    pip install pdfminer
    登入後複製
  2. 從PDF 文件中提取文字:
    import pdfminer
    from pdfminer.high_level import extract_text
    
    text = extract_text("path/to/pdf_file.pdf")
    登入後複製

Python 3 版本:

對於3,PDFMiner 位於:
  • https://github.com/pdfminer/pdfminer.six

這個替代解決方案解決了PyPDF 用戶面臨的挑戰,提供了一種更有效的方法來使用Python 從PDF 文件中提取文字。

以上是如何在 Python 中從 PDF 文件中提取文字:用 PDFMiner 替換 PyPDF?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板