在建立強大且多功能的應用程式時,讀取PDF 文件的內容可能是一項常見任務。 iTextSharp 是一個功能強大的開源程式庫,為在 .NET 應用程式中管理 PDF 文件提供了全面的解決方案。
在從 PDF 文件中提取文字時,iTextSharp 提供了 PdfReader 類,這是一個重要的文字工具提取目的。此類別可讓您存取 PDF 文件的各個頁面,並在 SimpleTextExtractionStrategy 策略的協助下,您可以從這些頁面中擷取純文字內容。
要從基於圖像的 PDF 中提取文本,iTextSharp利用 Tesseract 等 OCR 引擎。這些引擎可識別並從圖像中提取文本,使您能夠從包含文字圖像的 PDF 中捕獲內容。
以下範例示範如何在VB.NET 或C# 中使用PdfReader 讀取PDF 內容:
using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; using System; using System.IO; using System.Text; public static class PdfReaderExample { public static string ReadPdfFile(string filePath) { var sb = new StringBuilder(); if (File.Exists(filePath)) { var reader = new PdfReader(filePath); for (var page = 1; page <= reader.NumberOfPages; page++) { var strategy = new SimpleTextExtractionStrategy(); var text = PdfTextExtractor.GetTextFromPage(reader, page, strategy); text = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(text))); sb.Append(text); } reader.Close(); } return sb.ToString(); } }
在此範例中:
透過利用iTextSharp 的功能,您可以輕鬆讀取PDF 檔案的內容,使您的應用程式能夠處理和分析PDF 文件。
以上是如何在 VB.NET 或 C# 中使用 iTextSharp 高效地從 PDF 文件中提取文字?的詳細內容。更多資訊請關注PHP中文網其他相關文章!