iTextSharp 的 PdfReader 如何从 PDF 文件中提取文本和图像？-C++-PHP中文网

iTextSharp 的 PdfReader 如何从 PDF 文件中提取文本和图像？

Susan Sarandon

发布： 2025-01-06 07:43:45

原创

395 人浏览过

How Can iTextSharp's PdfReader Extract Text and Images from PDF Files?

使用 iTextSharp 的 PdfReader 阅读 PDF 内容的技巧

在处理 PDF 文档时，提取内容对于数据分析、文本搜索和分析至关重要。进一步加工。 iTextSharp 是著名的 C# 和 VB.NET 库，提供了用于读取和解析 PDF 内容的强大工具。

iTextSharp 中的 PdfReader 类使开发人员能够高效地访问 PDF 文件的内容。它提供了用于提取文档中嵌入的纯文本和图像的各种选项。

纯文本提取

要从 PDF 中提取纯文本，您可以利用 SimpleTextExtractionStrategy class:

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

登录后复制

这里，currentText将包含从指定页面提取的文本内容。请注意，文本可能包含非 Unicode 字符，您可以将其转换为 UTF-8 格式以便正确处理。

图像提取

如果 PDF 包含嵌入图像，您可以使用 PdfImageExtender 类提取它们：

PdfImageExtender extender = new PdfImageExtender();
List<Image> images = extender.GetImagesFromPage(pdfReader, page);

登录后复制

此代码检索代表图像的 Image 对象列表指定页面。然后，您可以访问每个图像的数据并将其保存为适当的格式。

以上是iTextSharp 的 PdfReader 如何从 PDF 文件中提取文本和图像？的详细内容。更多信息请关注PHP中文网其他相关文章！