Maison > développement back-end > C++ > Comment extraire efficacement du contenu PDF à l'aide d'iTextSharp en C# ou VB.NET ?

Comment extraire efficacement du contenu PDF à l'aide d'iTextSharp en C# ou VB.NET ?

Barbara Streisand
Libérer: 2025-01-06 07:46:40
original
905 Les gens l'ont consulté

How to Extract PDF Content Efficiently using iTextSharp in C# or VB.NET?

Extraire du contenu PDF à l'aide d'iTextSharp

Question :

Comment récupérer efficacement le contenu d'un document PDF à l'aide d'iTextSharp dans soit VB.NET ou C#?

Réponse :

iTextSharp fournit un mécanisme fiable pour lire le contenu PDF via sa classe PdfReader. Voici une solution C# complète pour extraire à la fois du texte et des images d'un document PDF :

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System;
using System.IO;
using System.Text;

namespace PdfContentReader
{
    public static class Program
    {
        public static string ReadPdfFile(string fileName)
        {
            StringBuilder text = new StringBuilder();

            if (File.Exists(fileName))
            {
                PdfReader pdfReader = new PdfReader(fileName);

                for (int page = 1; page <= pdfReader.NumberOfPages; page++)
                {
                    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                    string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

                    currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
                    text.Append(currentText);
                }
                pdfReader.Close();
            }
            return text.ToString();
        }

        public static void Main(string[] args)
        {
            string fileName = @"path\to\file.pdf";
            string extractedText = ReadPdfFile(fileName);

            Console.WriteLine(extractedText);
        }
    }
}
Copier après la connexion

Dans cette implémentation :

  • La méthode ReadPdfFile prend le nom de fichier comme argument et extrait le contenu textuel de chaque page du document PDF.
  • Nous utilisons SimpleTextExtractionStrategy pour extraire le texte brut du PDF. document.
  • Nous traitons les problèmes d'encodage potentiels en convertissant le texte extrait en encodage UTF-8.

Cette solution extrait efficacement le contenu du texte du document PDF, en gérant à la fois le texte brut et images intégrées efficacement.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal