Comment extraire efficacement du contenu PDF à l'aide d'iTextSharp en C# ou VB.NET ?-C++-php.cn

Comment extraire efficacement du contenu PDF à l'aide d'iTextSharp en C# ou VB.NET ?

Barbara Streisand

Libérer： 2025-01-06 07:46:40

original

1016 Les gens l'ont consulté

How to Extract PDF Content Efficiently using iTextSharp in C# or VB.NET?

Extraire du contenu PDF à l'aide d'iTextSharp

Question :

Comment récupérer efficacement le contenu d'un document PDF à l'aide d'iTextSharp dans soit VB.NET ou C#?

Réponse :

iTextSharp fournit un mécanisme fiable pour lire le contenu PDF via sa classe PdfReader. Voici une solution C# complète pour extraire à la fois du texte et des images d'un document PDF :

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System;
using System.IO;
using System.Text;

namespace PdfContentReader
{
    public static class Program
    {
        public static string ReadPdfFile(string fileName)
        {
            StringBuilder text = new StringBuilder();

            if (File.Exists(fileName))
            {
                PdfReader pdfReader = new PdfReader(fileName);

                for (int page = 1; page <= pdfReader.NumberOfPages; page++)
                {
                    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                    string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

                    currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
                    text.Append(currentText);
                }
                pdfReader.Close();
            }
            return text.ToString();
        }

        public static void Main(string[] args)
        {
            string fileName = @"path\to\file.pdf";
            string extractedText = ReadPdfFile(fileName);

            Console.WriteLine(extractedText);
        }
    }
}

Copier après la connexion

Dans cette implémentation :

La méthode ReadPdfFile prend le nom de fichier comme argument et extrait le contenu textuel de chaque page du document PDF.
Nous utilisons SimpleTextExtractionStrategy pour extraire le texte brut du PDF. document.
Nous traitons les problèmes d'encodage potentiels en convertissant le texte extrait en encodage UTF-8.

Cette solution extrait efficacement le contenu du texte du document PDF, en gérant à la fois le texte brut et images intégrées efficacement.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!