問:有沒有可以將 PDF 檔案轉換為文字的 Python 模組?
A:是的,有一個名為 PDFMiner 的 Python 模組,可以從 PDF 文件中提取文字: HTML、SGML 或「標記 PDF」格式。
PDFMiner 是處理 PDF 文件的強大工具。它可以從 PDF 中提取文字、圖像和元資料。它產生的標籤的 PDF 格式是最乾淨的,去掉 XML 標籤只留下裸露的文字。
安裝:
對於 Python 2.x:
pip install pdfminer
對於 Python 3.x:
pip install pdfminer.six
以上是如何使用Python將PDF轉換為文字?的詳細內容。更多資訊請關注PHP中文網其他相關文章!