Verwenden Sie iTextSharp, um Informationen zum PDF-Textformat (Schriftart, Größe usw.) zu extrahieren
Die iTextSharp-Bibliothek kann PDF-Text und seine Formatierungsinformationen wie Schriftart und Schriftgröße extrahieren. Hier ist ein Beispiel für die Verwendung von TextWithFontExtractionStrategy
, um diese Funktionalität zu erreichen:
<code class="language-csharp">PdfReader reader = new PdfReader(System.IO.Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.Desktop), "Document.pdf")); TextWithFontExtractionStrategy strategy = new TextWithFontExtractionStrategy(); string text = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(reader, 1, strategy); Console.WriteLine(text);</code>
TextWithFontExtractionStrategy
Verwenden Sie das TextRenderInfo
-Objekt, um Textformatinformationen aus PDF-Inhalten zu extrahieren. Das TextRenderInfo
-Objekt enthält Attribute wie GetFont
, GetFontName
, GetFontSize
, GetBaseline
und GetAscentLine
.
Mit diesen Eigenschaften können Sie die Schriftfamilie, die Schriftgröße und die Grundlinienposition des Textes ermitteln. Hier ist ein Beispiel für die Verwendung dieser Eigenschaften zum Extrahieren von Textformatierungsinformationen:
<code class="language-csharp">// 获取字体系列 string fontFamily = renderInfo.GetFont().PostscriptFontName; // 获取字号 float fontSize = renderInfo.GetBaseline().GetEndPoint()[Vector.I2] - renderInfo.GetBaseline().GetStartPoint()[Vector.I2]; // 获取基线位置 Vector baseline = renderInfo.GetBaseline().GetStartPoint();</code>
Bitte beachten Sie, dass das renderInfo
-Objekt während der Verarbeitung des von TextWithFontExtractionStrategy
zurückgegebenen Textes abgerufen werden muss. Der vollständige Code muss eine Schleife enthalten, die TextRenderInfo
-Objekte verarbeitet, um Formatierungsinformationen aus jeder Zeile oder jedem Textfragment zu extrahieren. Das obige Beispiel zeigt nur, wie auf die Eigenschaften des TextRenderInfo
-Objekts zugegriffen wird.
Das obige ist der detaillierte Inhalt vonWie kann ich mit iTextSharp Textformatierungsinformationen (Schriftart, Größe usw.) extrahieren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!