首頁 > 後端開發 > C++ > 如何在 C# 或 VB.NET 中使用 iTextSharp 高效提取 PDF 內容?

如何在 C# 或 VB.NET 中使用 iTextSharp 高效提取 PDF 內容?

Barbara Streisand
發布: 2025-01-06 07:46:40
原創
869 人瀏覽過

How to Extract PDF Content Efficiently using iTextSharp in C# or VB.NET?

使用iTextSharp 擷取PDF 內容

問題:

如何使用iTextSharp 有效擷取PDF 文件的內容C#?

答案:

iTextSharp 提供了一種透過其 PdfReader 類別讀取 PDF 內容的可靠機制。以下是從PDF 文件中提取文字和圖像的全面C# 解決方案:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System;
using System.IO;
using System.Text;

namespace PdfContentReader
{
    public static class Program
    {
        public static string ReadPdfFile(string fileName)
        {
            StringBuilder text = new StringBuilder();

            if (File.Exists(fileName))
            {
                PdfReader pdfReader = new PdfReader(fileName);

                for (int page = 1; page <= pdfReader.NumberOfPages; page++)
                {
                    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                    string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

                    currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
                    text.Append(currentText);
                }
                pdfReader.Close();
            }
            return text.ToString();
        }

        public static void Main(string[] args)
        {
            string fileName = @"path\to\file.pdf";
            string extractedText = ReadPdfFile(fileName);

            Console.WriteLine(extractedText);
        }
    }
}
登入後複製

在此實作中:

  • ReadPdfFile 方法將文件名稱作為參數並提取PDF 文件每一頁的文字內容。
  • 我們使用 SimpleTextExtractionStrategy 從 PDF 中提取純文字
  • 我們透過將提取的文字轉換為 UTF-8 編碼來處理潛在的編碼問題。

此解決方案有效地從 PDF 文件中提取文字內容,同時處理純文字和有效嵌入圖像。

以上是如何在 C# 或 VB.NET 中使用 iTextSharp 高效提取 PDF 內容?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板