使用iTextSharp 的PdfReader 閱讀PDF 內容的技巧
在處理PDF 文件時,提取內容對於資料分析、文字搜尋和分析關重要。進一步加工。 iTextSharp 是著名的 C# 和 VB.NET 程式庫,提供了用於讀取和解析 PDF 內容的強大工具。
iTextSharp 中的 PdfReader 類別使開發人員能夠有效率地存取 PDF 檔案的內容。它提供了用於提取文件中嵌入的純文字和圖像的各種選項。
純文字擷取
要從PDF 中提取純文本,您可以利用SimpleTextExtractionStrategy class:
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
這裡,currentText將包含從這裡,currentText將包含從指定頁面擷取的文字內容。請注意,文字可能包含非 Unicode 字符,您可以將其轉換為 UTF-8 格式以便正確處理。
影像擷取
如果PDF 包含嵌入影像,您可以使用PdfImageExtender 類別擷取它們:
PdfImageExtender extender = new PdfImageExtender(); List<Image> images = extender.GetImagesFromPage(pdfReader, page);
此程式碼擷取代表影像的Image對象清單指定頁面。然後,您可以存取每個影像的資料並將其儲存為適當的格式。
以上是iTextSharp 的 PdfReader 如何從 PDF 文件中提取文字和圖像?的詳細內容。更多資訊請關注PHP中文網其他相關文章!