从 PDF 中提取结构化表格
从 PDF 文档中提取结构化表格可能是一项具有挑战性的任务,尤其是对于非图像文件。这是帮助您解决此问题的综合指南:
非 OCR 解决方案
PDF -> HTML->提取表路由可能不可靠,尤其是对于包含非英文字体的文档。以下是一些替代方案:
1。手动提取
使用 Adobe Acrobat 或 Foxit 等软件手动选择表格单元格并将其复制到电子表格中。这对于结构简单的小桌子来说效果很好。
2. PDF 到 XML 转换器
像 PDFBox 这样的工具可以将表格数据提取为 XML 格式,可以进一步处理以提取结构化数据。
3.自定义模式匹配
如果生成的 PDF 一致,您可以开发自定义模式来识别表格单元格并提取其内容。然而,这需要对 PDF 结构有深入的了解。
所提供 PDF 的局限性
您提到的特定 PDF 有两个重大挑战:
建议
鉴于这些限制,可能无法提取结构化表格从提供的 PDF 中获取,无需 OCR 技术。相反,您可以考虑其他方法,例如向文档创建者请求原始表格数据或寻求其他 OCR 解决方案。
以上是可以在没有 OCR 的情况下从 PDF 中提取表格吗?的详细内容。更多信息请关注PHP中文网其他相关文章!