Maison > développement back-end > C++ > Comment extraire du texte et des images de fichiers PDF à l'aide d'iTextSharp dans .NET ?

Comment extraire du texte et des images de fichiers PDF à l'aide d'iTextSharp dans .NET ?

DDD
Libérer: 2025-01-06 07:51:41
original
893 Les gens l'ont consulté

How to Extract Text and Images from PDFs using iTextSharp in .NET?

Extraction de contenu PDF avec iTextSharp dans .NET

Dans les applications .NET, iTextSharp offre des fonctionnalités robustes pour gérer les documents PDF. L'une de ses principales fonctionnalités est la possibilité d'extraire du contenu à partir de PDF, y compris du texte et des images.

Lecture de texte brut à partir de PDF

Pour lire du texte brut à partir d'un PDF en utilisant iTextSharp, vous pouvez exploiter le code suivant :

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System.IO;

public string ReadPdfText(string fileName)
{
    StringBuilder text = new StringBuilder();

    if (File.Exists(fileName))
    {
        PdfReader pdfReader = new PdfReader(fileName);

        for (int page = 1; page <= pdfReader.NumberOfPages; page++)
        {
            ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
            string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
            text.Append(currentText);
        }
        pdfReader.Close();
    }
    return text.ToString();
}
Copier après la connexion

Dans cet exemple, la méthode ReadPdfText lit le contenu d'un PDF et accumule le texte dans un objet StringBuilder. La SimpleTextExtractionStrategy est utilisée pour extraire le texte de chaque page du PDF.

Gestion des images dans les PDF

Bien que le code ci-dessus se concentre sur l'extraction de texte, iTextSharp vous permet également de extraire des images à partir de PDF. Vous pouvez utiliser l'approche suivante :

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System;
using System.Drawing;
using System.IO;

public void ReadPdfImages(string fileName)
{
    if (File.Exists(fileName))
    {
        PdfReader pdfReader = new PdfReader(fileName);

        for (int page = 1; page <= pdfReader.NumberOfPages; page++)
        {
            PdfReaderContentParser parser = new PdfReaderContentParser(pdfReader);
            string content = parser.ProcessContent(page, new ImageRenderListener());
        }
    }
}
Copier après la connexion

Dans ce code, un PdfReaderContentParser est utilisé pour analyser le contenu de chaque page. ImageRenderListener fournit une méthode de rappel qui gère le rendu des images. Chaque image est rendue sous forme d'objet Bitmap, qui peut être traité ou enregistré ultérieurement.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal