So extrahieren Sie das Textformat mit iTextSharp
Obwohl iTextSharp eine effiziente Textextraktionsmethode bietet, kann es bei der Beibehaltung von Formatierungsdetails wie Schriftarten, Farben und Größen zu Mängeln kommen. Um diese Einschränkung zu überwinden, haben wir einen alternativen Ansatz untersucht.
Maßgeschneiderte Textextraktionsstrategie
Die benutzerdefinierte TextWithFontExtractionStategy
-Klasse erweitert die ITextExtractionStrategy
-Schnittstelle, um Formatinformationen zu erfassen. In der RenderText
-Methode:
Beispielausgabe
Der folgende C#-Code zeigt, wie Text und schriftartbezogene Formatierungen aus einer PDF-Datei extrahiert werden:
<code class="language-csharp">StringBuilder result = new StringBuilder(); PdfReader reader = new PdfReader(System.IO.Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.Desktop), "Document.pdf")); TextWithFontExtractionStategy S = new TextWithFontExtractionStategy(); string F = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(reader, 1, S); Console.WriteLine(F);</code>
Die generierte HTML-Ausgabe enthält Tags für Schriftfamilie, Schriftgröße und Schriftstil.
Weitere Überlegungen
PostscriptFontName
kann zusätzliche Zeichen enthalten, die möglicherweise mit der Unterteilung der Schriftart zusammenhängen. Das obige ist der detaillierte Inhalt vonWie kann ich mit iTextSharp die Textformatierung (Schriftart, Größe, Stil) aus einer PDF-Datei abrufen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!