Techniques de lecture de contenu PDF à l'aide de PdfReader d'iTextSharp
Lorsque vous travaillez avec des documents PDF, l'extraction du contenu est cruciale pour l'analyse des données, la recherche de texte et traitement ultérieur. iTextSharp, une bibliothèque C# et VB.NET renommée, fournit des outils puissants pour lire et analyser le contenu PDF.
La classe PdfReader d'iTextSharp permet aux développeurs d'accéder efficacement au contenu des fichiers PDF. Il offre diverses options pour extraire à la fois du texte brut et des images intégrées dans le document.
Extraction de texte brut
Pour extraire du texte brut d'un PDF, vous pouvez tirer parti de SimpleTextExtractionStrategy class :
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
Ici, currentText contiendra le contenu textuel extrait de la page spécifiée. Notez que le texte peut contenir des caractères non Unicode, que vous pouvez convertir au format UTF-8 pour une manipulation correcte.
Extraction d'images
Si le PDF comprend des images intégrées , vous pouvez les extraire à l'aide de la classe PdfImageExtender :
PdfImageExtender extender = new PdfImageExtender(); List<Image> images = extender.GetImagesFromPage(pdfReader, page);
Ce code récupère une liste d'objets Image représentant les images sur la page spécifiée. Vous pouvez ensuite accéder aux données de chaque image et les enregistrer dans un format approprié.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!