Maison > développement back-end > C++ > Comment PdfReader d'iTextSharp peut-il extraire du texte et des images à partir de fichiers PDF ?

Comment PdfReader d'iTextSharp peut-il extraire du texte et des images à partir de fichiers PDF ?

Susan Sarandon
Libérer: 2025-01-06 07:43:45
original
218 Les gens l'ont consulté

How Can iTextSharp's PdfReader Extract Text and Images from PDF Files?

Techniques de lecture de contenu PDF à l'aide de PdfReader d'iTextSharp

Lorsque vous travaillez avec des documents PDF, l'extraction du contenu est cruciale pour l'analyse des données, la recherche de texte et traitement ultérieur. iTextSharp, une bibliothèque C# et VB.NET renommée, fournit des outils puissants pour lire et analyser le contenu PDF.

La classe PdfReader d'iTextSharp permet aux développeurs d'accéder efficacement au contenu des fichiers PDF. Il offre diverses options pour extraire à la fois du texte brut et des images intégrées dans le document.

Extraction de texte brut

Pour extraire du texte brut d'un PDF, vous pouvez tirer parti de SimpleTextExtractionStrategy class :

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
Copier après la connexion

Ici, currentText contiendra le contenu textuel extrait de la page spécifiée. Notez que le texte peut contenir des caractères non Unicode, que vous pouvez convertir au format UTF-8 pour une manipulation correcte.

Extraction d'images

Si le PDF comprend des images intégrées , vous pouvez les extraire à l'aide de la classe PdfImageExtender :

PdfImageExtender extender = new PdfImageExtender();
List<Image> images = extender.GetImagesFromPage(pdfReader, page);
Copier après la connexion

Ce code récupère une liste d'objets Image représentant les images sur la page spécifiée. Vous pouvez ensuite accéder aux données de chaque image et les enregistrer dans un format approprié.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal