iTextSharp 的 PdfReader 如何從 PDF 文件中提取文字和圖像？-C++-PHP中文網

iTextSharp 的 PdfReader 如何從 PDF 文件中提取文字和圖像？

Susan Sarandon

發布： 2025-01-06 07:43:45

原創

403 人瀏覽過

How Can iTextSharp's PdfReader Extract Text and Images from PDF Files?

使用iTextSharp 的PdfReader 閱讀PDF 內容的技巧

在處理PDF 文件時，提取內容對於資料分析、文字搜尋和分析關重要。進一步加工。 iTextSharp 是著名的 C# 和 VB.NET 程式庫，提供了用於讀取和解析 PDF 內容的強大工具。

iTextSharp 中的 PdfReader 類別使開發人員能夠有效率地存取 PDF 檔案的內容。它提供了用於提取文件中嵌入的純文字和圖像的各種選項。

純文字擷取

要從PDF 中提取純文本，您可以利用SimpleTextExtractionStrategy class:

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

登入後複製

這裡，currentText將包含從這裡，currentText將包含從指定頁面擷取的文字內容。請注意，文字可能包含非 Unicode 字符，您可以將其轉換為 UTF-8 格式以便正確處理。

影像擷取

如果PDF 包含嵌入影像，您可以使用PdfImageExtender 類別擷取它們：

PdfImageExtender extender = new PdfImageExtender();
List<Image> images = extender.GetImagesFromPage(pdfReader, page);

登入後複製

此程式碼擷取代表影像的Image對象清單指定頁面。然後，您可以存取每個影像的資料並將其儲存為適當的格式。

以上是iTextSharp 的 PdfReader 如何從 PDF 文件中提取文字和圖像？的詳細內容。更多資訊請關注PHP中文網其他相關文章！