使用 iTextSharp 增强文本格式提取
iTextSharp 的默认 PDF 文本提取在涉及字体样式和颜色等高级格式时缺乏精度。本文提出了克服此限制的解决方案。
卓越的提取方法:
不要依赖标准提取方法,而是使用自定义策略,例如“TextWithFontExtractionStategy”。此方法跟踪基线、字体名称和大小的变化,以准确识别格式变化。
样式化 HTML 输出:
这种改进的策略会生成 HTML 输出,为每个文本段嵌入样式标签。这会保留提取数据中的格式详细信息。
实施细节:
提供的代码示例展示了如何实现此增强策略并生成格式化的 HTML 输出。 它利用 ITextExtractionStrategy
接口进行文本提取和渲染。
高级渲染功能:
该策略包括检测“假粗体”字体(使用填充和描边渲染在视觉上加粗的字体)。 它将“-Bold”添加到 HTML 输出中的字体名称中以反映这一点。
自定义选项:
该策略具有很强的适应性。您可以修改 HTML 格式以满足您特定的样式需求和偏好。
摘要:
通过将此增强的提取策略集成到您的 iTextSharp 应用程序中,您将显着提高文本格式提取的准确性和多功能性,从 PDF 文档中捕获更丰富的信息。
以上是如何改进 iTextSharp 中的文本格式提取?的详细内容。更多信息请关注PHP中文网其他相关文章!