首页 > 后端开发 > C++ > iTextSharp 的 PdfReader 如何从 PDF 文件中提取文本和图像?

iTextSharp 的 PdfReader 如何从 PDF 文件中提取文本和图像?

Susan Sarandon
发布: 2025-01-06 07:43:45
原创
218 人浏览过

How Can iTextSharp's PdfReader Extract Text and Images from PDF Files?

使用 iTextSharp 的 PdfReader 阅读 PDF 内容的技巧

在处理 PDF 文档时,提取内容对于数据分析、文本搜索和分析至关重要。进一步加工。 iTextSharp 是著名的 C# 和 VB.NET 库,提供了用于读取和解析 PDF 内容的强大工具。

iTextSharp 中的 PdfReader 类使开发人员能够高效地访问 PDF 文件的内容。它提供了用于提取文档中嵌入的纯文本和图像的各种选项。

纯文本提取

要从 PDF 中提取纯文本,您可以利用 SimpleTextExtractionStrategy class:

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
登录后复制

这里,currentText将包含从指定页面提取的文本内容。请注意,文本可能包含非 Unicode 字符,您可以将其转换为 UTF-8 格式以便正确处理。

图像提取

如果 PDF 包含嵌入图像,您可以使用 PdfImageExtender 类提取它们:

PdfImageExtender extender = new PdfImageExtender();
List<Image> images = extender.GetImagesFromPage(pdfReader, page);
登录后复制

此代码检索代表图像的 Image 对象列表指定页面。然后,您可以访问每个图像的数据并将其保存为适当的格式。

以上是iTextSharp 的 PdfReader 如何从 PDF 文件中提取文本和图像?的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:php.cn
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板