Wie kann ich mit iTextSharp in VB.NET oder C# effizient Text aus PDF-Dateien extrahieren?-C++-php.cn

Wie kann ich mit iTextSharp in VB.NET oder C# effizient Text aus PDF-Dateien extrahieren?

DDD

Freigeben： 2025-01-06 08:03:43

Original

858 Leute haben es durchsucht

How Can I Efficiently Extract Text from PDF Files Using iTextSharp in VB.NET or C#?

Extrahieren von PDF-Inhalten mit iTextSharp in VB.NET oder C

Das Lesen des Inhalts eines PDF-Dokuments kann eine häufige Aufgabe beim Erstellen robuster und vielseitiger Anwendungen sein. iTextSharp, eine leistungsstarke Open-Source-Bibliothek, bietet eine umfassende Lösung für die Verwaltung von PDF-Dokumenten in Ihren .NET-Anwendungen.

Wenn es um das Extrahieren von Text aus PDF-Dateien geht, bietet iTextSharp die PdfReader-Klasse, ein wichtiges Werkzeug für Text Extraktionszwecke. Mit dieser Klasse können Sie auf einzelne Seiten eines PDF-Dokuments zugreifen und mit Hilfe der SimpleTextExtractionStrategy-Strategie den reinen Textinhalt dieser Seiten abrufen.

Zum Extrahieren von Text aus einem bildbasierten PDF: iTextSharp nutzt OCR-Engines wie Tesseract. Diese Engines erkennen und extrahieren Text aus Bildern, sodass Sie Inhalte aus PDFs erfassen können, die Textbilder enthalten.

Hier ist ein Beispiel, das zeigt, wie PDF-Inhalte mit PdfReader in VB.NET oder C# gelesen werden:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System;
using System.IO;
using System.Text;

public static class PdfReaderExample
{
    public static string ReadPdfFile(string filePath)
    {
        var sb = new StringBuilder();
        
        if (File.Exists(filePath))
        {
            var reader = new PdfReader(filePath);
            
            for (var page = 1; page <= reader.NumberOfPages; page++)
            {
                var strategy = new SimpleTextExtractionStrategy();
                var text = PdfTextExtractor.GetTextFromPage(reader, page, strategy);
                
                text = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(text)));
                sb.Append(text);
            }
            
            reader.Close();
        }
        
        return sb.ToString();
    }
}

Nach dem Login kopieren

In diesem Beispiel:

Der PdfReader wird initialisiert und ermöglicht den Zugriff auf die PDF-Dokumente Inhalt.
Jede Seite der PDF-Datei wird mit dem PdfTextExtractor mit der SimpleTextExtractionStrategy verarbeitet.
Der extrahierte Text wird für eine genaue Textdarstellung in die UTF-8-Kodierung konvertiert.
Der Der endgültige extrahierte Text wird in einer Zeichenfolgenvariablen gespeichert und als Ergebnis zurückgegeben.

Durch die Verwendung Dank der Funktionen von iTextSharp können Sie mühelos den Inhalt Ihrer PDF-Dateien lesen und Ihren Anwendungen die Möglichkeit geben, PDF-Dokumente zu verarbeiten und zu analysieren.

Das obige ist der detaillierte Inhalt vonWie kann ich mit iTextSharp in VB.NET oder C# effizient Text aus PDF-Dateien extrahieren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!