Extraction de contenu PDF avec iTextSharp dans .NET
Dans les applications .NET, iTextSharp offre des fonctionnalités robustes pour gérer les documents PDF. L'une de ses principales fonctionnalités est la possibilité d'extraire du contenu à partir de PDF, y compris du texte et des images.
Lecture de texte brut à partir de PDF
Pour lire du texte brut à partir d'un PDF en utilisant iTextSharp, vous pouvez exploiter le code suivant :
using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; using System.IO; public string ReadPdfText(string fileName) { StringBuilder text = new StringBuilder(); if (File.Exists(fileName)) { PdfReader pdfReader = new PdfReader(fileName); for (int page = 1; page <= pdfReader.NumberOfPages; page++) { ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy); text.Append(currentText); } pdfReader.Close(); } return text.ToString(); }
Dans cet exemple, la méthode ReadPdfText lit le contenu d'un PDF et accumule le texte dans un objet StringBuilder. La SimpleTextExtractionStrategy est utilisée pour extraire le texte de chaque page du PDF.
Gestion des images dans les PDF
Bien que le code ci-dessus se concentre sur l'extraction de texte, iTextSharp vous permet également de extraire des images à partir de PDF. Vous pouvez utiliser l'approche suivante :
using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; using System; using System.Drawing; using System.IO; public void ReadPdfImages(string fileName) { if (File.Exists(fileName)) { PdfReader pdfReader = new PdfReader(fileName); for (int page = 1; page <= pdfReader.NumberOfPages; page++) { PdfReaderContentParser parser = new PdfReaderContentParser(pdfReader); string content = parser.ProcessContent(page, new ImageRenderListener()); } } }
Dans ce code, un PdfReaderContentParser est utilisé pour analyser le contenu de chaque page. ImageRenderListener fournit une méthode de rappel qui gère le rendu des images. Chaque image est rendue sous forme d'objet Bitmap, qui peut être traité ou enregistré ultérieurement.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!