Frage:
So rufen Sie den Inhalt eines PDF-Dokuments mit iTextSharp effektiv ab entweder VB.NET oder C#?
Antwort:
iTextSharp bietet über seine PdfReader-Klasse einen zuverlässigen Mechanismus zum Lesen von PDF-Inhalten. Hier ist eine umfassende C#-Lösung zum Extrahieren von Text und Bildern aus einem PDF-Dokument:
using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; using System; using System.IO; using System.Text; namespace PdfContentReader { public static class Program { public static string ReadPdfFile(string fileName) { StringBuilder text = new StringBuilder(); if (File.Exists(fileName)) { PdfReader pdfReader = new PdfReader(fileName); for (int page = 1; page <= pdfReader.NumberOfPages; page++) { ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy); currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText))); text.Append(currentText); } pdfReader.Close(); } return text.ToString(); } public static void Main(string[] args) { string fileName = @"path\to\file.pdf"; string extractedText = ReadPdfFile(fileName); Console.WriteLine(extractedText); } } }
In dieser Implementierung:
Diese Lösung extrahiert effizient den Textinhalt aus dem PDF-Dokument und verarbeitet sowohl einfachen Text als auch eingebettete Bilder effektiv.
Das obige ist der detaillierte Inhalt vonWie extrahiere ich PDF-Inhalte effizient mit iTextSharp in C# oder VB.NET?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!