首頁 > 後端開發 > C++ > iTextSharp 的 PdfReader 如何從 PDF 文件中提取文字和圖像?

iTextSharp 的 PdfReader 如何從 PDF 文件中提取文字和圖像?

Susan Sarandon
發布: 2025-01-06 07:43:45
原創
218 人瀏覽過

How Can iTextSharp's PdfReader Extract Text and Images from PDF Files?

使用iTextSharp 的PdfReader 閱讀PDF 內容的技巧

在處理PDF 文件時,提取內容對於資料分析、文字搜尋和分析關重要。進一步加工。 iTextSharp 是著名的 C# 和 VB.NET 程式庫,提供了用於讀取和解析 PDF 內容的強大工具。

iTextSharp 中的 PdfReader 類別使開發人員能夠有效率地存取 PDF 檔案的內容。它提供了用於提取文件中嵌入的純文字和圖像的各種選項。

純文字擷取

要從PDF 中提取純文本,您可以利用SimpleTextExtractionStrategy class:

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
登入後複製

這裡,currentText將包含從這裡,currentText將包含從指定頁面擷取的文字內容。請注意,文字可能包含非 Unicode 字符,您可以將其轉換為 UTF-8 格式以便正確處理。

影像擷取

如果PDF 包含嵌入影像,您可以使用PdfImageExtender 類別擷取它們:

PdfImageExtender extender = new PdfImageExtender();
List<Image> images = extender.GetImagesFromPage(pdfReader, page);
登入後複製

此程式碼擷取代表影像的Image對象清單指定頁面。然後,您可以存取每個影像的資料並將其儲存為適當的格式。

以上是iTextSharp 的 PdfReader 如何從 PDF 文件中提取文字和圖像?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板