使用 iTextSharp 的 PdfReader 阅读 PDF 内容的技巧
在处理 PDF 文档时,提取内容对于数据分析、文本搜索和分析至关重要。进一步加工。 iTextSharp 是著名的 C# 和 VB.NET 库,提供了用于读取和解析 PDF 内容的强大工具。
iTextSharp 中的 PdfReader 类使开发人员能够高效地访问 PDF 文件的内容。它提供了用于提取文档中嵌入的纯文本和图像的各种选项。
纯文本提取
要从 PDF 中提取纯文本,您可以利用 SimpleTextExtractionStrategy class:
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
这里,currentText将包含从指定页面提取的文本内容。请注意,文本可能包含非 Unicode 字符,您可以将其转换为 UTF-8 格式以便正确处理。
图像提取
如果 PDF 包含嵌入图像,您可以使用 PdfImageExtender 类提取它们:
PdfImageExtender extender = new PdfImageExtender(); List<Image> images = extender.GetImagesFromPage(pdfReader, page);
此代码检索代表图像的 Image 对象列表指定页面。然后,您可以访问每个图像的数据并将其保存为适当的格式。
以上是iTextSharp 的 PdfReader 如何从 PDF 文件中提取文本和图像?的详细内容。更多信息请关注PHP中文网其他相关文章!