從PDF 中提取結構化表格
從PDF 文件中提取結構化表格可能是一項具有挑戰性的任務,尤其是對於非圖像檔案。這是幫助您解決此問題的綜合指南:
非OCR 解決方案
PDF -> HTML->提取表路由可能不可靠,尤其是對於包含非英文字體的文檔。以下是一些替代方案:
1。手動擷取
使用 Adobe Acrobat 或 Foxit 等軟體手動選取表格儲存格並將其複製到電子表格中。這對於結構簡單的小桌子來說效果很好。
2. PDF 到 XML 轉換器
像 PDFBox 這樣的工具可以將表格資料提取為 XML 格式,可以進一步處理以提取結構化資料。
3.自訂模式符合
如果產生的 PDF 一致,您可以開發自訂模式來識別表格儲存格並擷取其內容。然而,這需要對 PDF 結構有深入的了解。
所提供PDF 的限制
您提到的特定PDF 有兩個重大挑戰:
建議
鑑於這些限制,可能無法提取結構化表格從提供的 PDF 中獲取,無需 OCR 技術。相反,您可以考慮其他方法,例如向文件建立者請求原始表格資料或尋求其他 OCR 解決方案。
以上是可以在沒有 OCR 的情況下從 PDF 中提取表格嗎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!