Heim > Backend-Entwicklung > C++ > Wie extrahiere ich PDF-Inhalte effizient mit iTextSharp in C# oder VB.NET?

Wie extrahiere ich PDF-Inhalte effizient mit iTextSharp in C# oder VB.NET?

Barbara Streisand
Freigeben: 2025-01-06 07:46:40
Original
868 Leute haben es durchsucht

How to Extract PDF Content Efficiently using iTextSharp in C# or VB.NET?

Extrahieren von PDF-Inhalten mit iTextSharp

Frage:

So rufen Sie den Inhalt eines PDF-Dokuments mit iTextSharp effektiv ab entweder VB.NET oder C#?

Antwort:

iTextSharp bietet über seine PdfReader-Klasse einen zuverlässigen Mechanismus zum Lesen von PDF-Inhalten. Hier ist eine umfassende C#-Lösung zum Extrahieren von Text und Bildern aus einem PDF-Dokument:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System;
using System.IO;
using System.Text;

namespace PdfContentReader
{
    public static class Program
    {
        public static string ReadPdfFile(string fileName)
        {
            StringBuilder text = new StringBuilder();

            if (File.Exists(fileName))
            {
                PdfReader pdfReader = new PdfReader(fileName);

                for (int page = 1; page <= pdfReader.NumberOfPages; page++)
                {
                    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                    string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

                    currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
                    text.Append(currentText);
                }
                pdfReader.Close();
            }
            return text.ToString();
        }

        public static void Main(string[] args)
        {
            string fileName = @"path\to\file.pdf";
            string extractedText = ReadPdfFile(fileName);

            Console.WriteLine(extractedText);
        }
    }
}
Nach dem Login kopieren

In dieser Implementierung:

  • Die ReadPdfFile-Methode verwendet den Dateinamen als Argument und extrahiert die Textinhalt von jeder Seite des PDF-Dokuments.
  • Wir verwenden die SimpleTextExtractionStrategy, um einfachen Text aus dem PDF zu extrahieren Dokument.
  • Wir lösen potenzielle Kodierungsprobleme, indem wir den extrahierten Text in die UTF-8-Kodierung konvertieren.

Diese Lösung extrahiert effizient den Textinhalt aus dem PDF-Dokument und verarbeitet sowohl einfachen Text als auch eingebettete Bilder effektiv.

Das obige ist der detaillierte Inhalt vonWie extrahiere ich PDF-Inhalte effizient mit iTextSharp in C# oder VB.NET?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage