使用 Python 將 PDF 轉換為文字
PDF 文件通常用於安全地共享文檔,但提取文字內容可能具有挑戰性。本題探討了能夠將 PDF 文件轉換為文字的 Python 模組。
使用者嘗試了利用 PyPDF 的程式碼,但輸出缺少空格,導致無法使用。此回應提供了替代解決方案:PDFMiner。
PDFMiner:
PDFMiner 是一個 Python 模組,可以將 PDF 檔案轉換為 HTML、SGML 或「標記 PDF」格式。標籤的 PDF 格式特別有用,因為它可以輕鬆轉換為純文字。
用法:
要使用PDFMiner,請依照下列步驟操作:
安裝PDFMiner:
pip install pdfminer
import pdfminer from pdfminer.high_level import extract_text text = extract_text("path/to/pdf_file.pdf")
Python 3 版本:
對於3,PDFMiner 位於:這個替代解決方案解決了PyPDF 用戶面臨的挑戰,提供了一種更有效的方法來使用Python 從PDF 文件中提取文字。
以上是如何在 Python 中從 PDF 文件中提取文字:用 PDFMiner 替換 PyPDF?的詳細內容。更多資訊請關注PHP中文網其他相關文章!