Comment PdfReader d'iTextSharp peut-il extraire du texte et des images à partir de fichiers PDF ?-C++-php.cn

Comment PdfReader d'iTextSharp peut-il extraire du texte et des images à partir de fichiers PDF ?

Susan Sarandon

Libérer： 2025-01-06 07:43:45

original

399 Les gens l'ont consulté

How Can iTextSharp's PdfReader Extract Text and Images from PDF Files?

Techniques de lecture de contenu PDF à l'aide de PdfReader d'iTextSharp

Lorsque vous travaillez avec des documents PDF, l'extraction du contenu est cruciale pour l'analyse des données, la recherche de texte et traitement ultérieur. iTextSharp, une bibliothèque C# et VB.NET renommée, fournit des outils puissants pour lire et analyser le contenu PDF.

La classe PdfReader d'iTextSharp permet aux développeurs d'accéder efficacement au contenu des fichiers PDF. Il offre diverses options pour extraire à la fois du texte brut et des images intégrées dans le document.

Extraction de texte brut

Pour extraire du texte brut d'un PDF, vous pouvez tirer parti de SimpleTextExtractionStrategy class :

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

Copier après la connexion

Ici, currentText contiendra le contenu textuel extrait de la page spécifiée. Notez que le texte peut contenir des caractères non Unicode, que vous pouvez convertir au format UTF-8 pour une manipulation correcte.

Extraction d'images

Si le PDF comprend des images intégrées , vous pouvez les extraire à l'aide de la classe PdfImageExtender :

PdfImageExtender extender = new PdfImageExtender();
List<Image> images = extender.GetImagesFromPage(pdfReader, page);

Copier après la connexion

Ce code récupère une liste d'objets Image représentant les images sur la page spécifiée. Vous pouvez ensuite accéder aux données de chaque image et les enregistrer dans un format approprié.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!