Maison > développement back-end > C++ > Comment puis-je extraire efficacement du texte de fichiers PDF à l'aide d'iTextSharp dans VB.NET ou C# ?

Comment puis-je extraire efficacement du texte de fichiers PDF à l'aide d'iTextSharp dans VB.NET ou C# ?

DDD
Libérer: 2025-01-06 08:03:43
original
802 Les gens l'ont consulté

How Can I Efficiently Extract Text from PDF Files Using iTextSharp in VB.NET or C#?

Extraire du contenu PDF avec iTextSharp en VB.NET ou C

La lecture du contenu d'un document PDF peut être une tâche courante lors de la création d'applications robustes et polyvalentes. iTextSharp, une puissante bibliothèque open source, fournit une solution complète pour gérer les documents PDF dans vos applications .NET.

Quand il s'agit d'extraire du texte à partir de fichiers PDF, iTextSharp propose la classe PdfReader, un outil important pour l'extraction de texte. à des fins d’extraction. Cette classe vous permet d'accéder à des pages individuelles d'un document PDF et, avec l'aide de la stratégie SimpleTextExtractionStrategy, vous pouvez récupérer le contenu en texte brut de ces pages.

Pour extraire du texte à partir d'un PDF basé sur une image, iTextSharp exploite les moteurs OCR comme Tesseract. Ces moteurs reconnaissent et extraient le texte des images, vous permettant de capturer le contenu de PDF contenant des images de texte.

Voici un exemple qui montre comment lire du contenu PDF à l'aide de PdfReader dans VB.NET ou C# :

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System;
using System.IO;
using System.Text;

public static class PdfReaderExample
{
    public static string ReadPdfFile(string filePath)
    {
        var sb = new StringBuilder();
        
        if (File.Exists(filePath))
        {
            var reader = new PdfReader(filePath);
            
            for (var page = 1; page <= reader.NumberOfPages; page++)
            {
                var strategy = new SimpleTextExtractionStrategy();
                var text = PdfTextExtractor.GetTextFromPage(reader, page, strategy);
                
                text = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(text)));
                sb.Append(text);
            }
            
            reader.Close();
        }
        
        return sb.ToString();
    }
}
Copier après la connexion

Dans cet exemple :

  • Le PdfReader est initialisé, permettant l'accès au document PDF contenu.
  • Chaque page du PDF est traitée à l'aide de PdfTextExtractor avec SimpleTextExtractionStrategy.
  • Le texte extrait est converti en codage UTF-8 pour une représentation précise du texte.
  • Le Le texte final extrait est stocké dans une variable de chaîne et renvoyé comme résultat.

En utilisant Grâce aux capacités d'iTextSharp, vous pouvez lire sans effort le contenu de vos fichiers PDF, donnant ainsi à vos applications la possibilité de traiter et d'analyser des documents PDF.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal