使用Python 從PDF 文件中提取文字
在Python 中,從PDF 文件中提取文字是一項常見任務,通常使用PyPDF2 庫完成。嘗試使用 PyPDF2 擷取文字時,與原始 PDF 相比,擷取的內容可能會出現差異。
問題說明
提供的腳本,用 PyPDF2 編寫,成功從 PDF 文件中提取文本,但在輸出中遇到損壞的字符。這是因為 PyPDF2 無法處理 PDF 文件中使用的某些編碼。
解決方案
要解決此問題,請考慮使用 Tika 函式庫。 Tika-Python 為 Apache Tika 的 REST 服務提供 Python 接口,提供文字擷取功能,並改進對各種編碼的處理。
程式碼範例
from tika import parser # pip install tika raw = parser.from_file('sample.pdf') print(raw['content'])
附加說明
Tika 需要 Java 執行時間環境。確保在使用 Tika-Python 之前安裝它。此外,與 PyPDF2 相比,Tika 可能會消耗更多內存,因此在為您的應用程式選擇最佳解決方案時請考慮這一方面。
以上是Python 庫如何最好地從 PDF 中提取文字並處理編碼問題?的詳細內容。更多資訊請關注PHP中文網其他相關文章!