首頁 > 後端開發 > C++ > 如何在 VB.NET 或 C# 中使用 iTextSharp 高效地從 PDF 文件中提取文字?

如何在 VB.NET 或 C# 中使用 iTextSharp 高效地從 PDF 文件中提取文字?

DDD
發布: 2025-01-06 08:03:43
原創
765 人瀏覽過

How Can I Efficiently Extract Text from PDF Files Using iTextSharp in VB.NET or C#?

在VB.NET 或C 中使用iTextSharp 提取PDF 內容

在建立強大且多功能的應用程式時,讀取PDF 文件的內容可能是一項常見任務。 iTextSharp 是一個功能強大的開源程式庫,為在 .NET 應用程式中管理 PDF 文件提供了全面的解決方案。

在從 PDF 文件中提取文字時,iTextSharp 提供了 PdfReader 類,這是一個重要的文字工具提取目的。此類別可讓您存取 PDF 文件的各個頁面,並在 SimpleTextExtractionStrategy 策略的協助下,您可以從這些頁面中擷取純文字內容。

要從基於圖像的 PDF 中提取文本,iTextSharp利用 Tesseract 等 OCR 引擎。這些引擎可識別並從圖像中提取文本,使您能夠從包含文字圖像的 PDF 中捕獲內容。

以下範例示範如何在VB.NET 或C# 中使用PdfReader 讀取PDF 內容:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System;
using System.IO;
using System.Text;

public static class PdfReaderExample
{
    public static string ReadPdfFile(string filePath)
    {
        var sb = new StringBuilder();
        
        if (File.Exists(filePath))
        {
            var reader = new PdfReader(filePath);
            
            for (var page = 1; page <= reader.NumberOfPages; page++)
            {
                var strategy = new SimpleTextExtractionStrategy();
                var text = PdfTextExtractor.GetTextFromPage(reader, page, strategy);
                
                text = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(text)));
                sb.Append(text);
            }
            
            reader.Close();
        }
        
        return sb.ToString();
    }
}
登入後複製

在此範例中:

  • PdfReader 已初始化,允許存取PDF文件的內容。
  • PDF 的每一頁皆使用 PdfTextExtractor 和 SimpleTextExtractionStrategy 進行處理。
  • 擷取的文字將轉換為 UTF-8 編碼,以實現準確的文字表示。
  • 最終提取的文字儲存在字串變數中並作為

透過利用iTextSharp 的功能,您可以輕鬆讀取PDF 檔案的內容,使您的應用程式能夠處理和分析PDF 文件。

以上是如何在 VB.NET 或 C# 中使用 iTextSharp 高效地從 PDF 文件中提取文字?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板