Wie extrahiere ich Text und Bilder aus PDFs mit iTextSharp in .NET?-C++-php.cn

Wie extrahiere ich Text und Bilder aus PDFs mit iTextSharp in .NET?

DDD

Freigeben： 2025-01-06 07:51:41

Original

1006 Leute haben es durchsucht

How to Extract Text and Images from PDFs using iTextSharp in .NET?

Extrahieren von PDF-Inhalten mit iTextSharp in .NET

In .NET-Anwendungen bietet iTextSharp robuste Funktionen für die Verarbeitung von PDF-Dokumenten. Eine seiner Hauptfunktionen ist die Möglichkeit, Inhalte aus PDFs zu extrahieren, einschließlich Text und Bildern.

Einfachen Text aus PDFs lesen

Um einfachen Text aus einem PDF zu lesen Mit iTextSharp können Sie den folgenden Code nutzen:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System.IO;

public string ReadPdfText(string fileName)
{
    StringBuilder text = new StringBuilder();

    if (File.Exists(fileName))
    {
        PdfReader pdfReader = new PdfReader(fileName);

        for (int page = 1; page <= pdfReader.NumberOfPages; page++)
        {
            ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
            string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
            text.Append(currentText);
        }
        pdfReader.Close();
    }
    return text.ToString();
}

Nach dem Login kopieren

In diesem Beispiel liest die ReadPdfText-Methode den Inhalt einer PDF-Datei und Sammelt den Text in einem StringBuilder-Objekt. Die SimpleTextExtractionStrategy wird verwendet, um Text aus jeder Seite des PDFs zu extrahieren.

Umgang mit Bildern in PDFs

Während sich der obige Code auf das Extrahieren von Text konzentriert, ermöglicht Ihnen iTextSharp auch dies Extrahieren Sie Bilder aus PDFs. Sie können den folgenden Ansatz verwenden:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System;
using System.Drawing;
using System.IO;

public void ReadPdfImages(string fileName)
{
    if (File.Exists(fileName))
    {
        PdfReader pdfReader = new PdfReader(fileName);

        for (int page = 1; page <= pdfReader.NumberOfPages; page++)
        {
            PdfReaderContentParser parser = new PdfReaderContentParser(pdfReader);
            string content = parser.ProcessContent(page, new ImageRenderListener());
        }
    }
}

Nach dem Login kopieren

In diesem Code wird ein PdfReaderContentParser verwendet, um den Inhalt jeder Seite zu analysieren. Der ImageRenderListener stellt eine Rückrufmethode bereit, die das Rendern von Bildern übernimmt. Jedes Bild wird als Bitmap-Objekt gerendert, das weiterverarbeitet oder gespeichert werden kann.

Das obige ist der detaillierte Inhalt vonWie extrahiere ich Text und Bilder aus PDFs mit iTextSharp in .NET?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!