在不使用 OCR 的情况下从 PDF 文档中提取表格并同时保留其结构可能具有挑战性。此任务需要在代码中模拟人类表格识别功能。
在提供的示例中,还有一个需要克服的额外障碍:PDF 不包含直接文本提取数据。尝试在 Adobe Reader 中复制并粘贴文本会产生半随机字符,这表明文档中使用的字体编码不正确。
这意味着如果不使用 OCR,就不可能进行可靠的文本提取。要确定是否可以提取文本,建议尝试从 Adobe Reader 进行复制和粘贴,因为它的文本提取方法非常强大。如果无法提取出有意义的文本,找到合适的文本提取解决方案将更具挑战性。
对于未来由同一软件生成的 PDF,仍然可以根据文件的内部开发自定义解决方案结构。然而,对于具有不同表格位置的 PDF,这种方法可能不实用。
以上是您可以在不使用 OCR 的情况下从 PDF 中提取结构化表格数据吗?的详细内容。更多信息请关注PHP中文网其他相关文章!