使用iTextSharp擷取文字格式的方法
雖然iTextSharp提供有效的文字擷取方法,但在保留字體、顏色和大小等格式細節方面可能存在不足。為了克服這個限制,我們探索了一種替代方法。
自訂文字擷取策略
自訂的TextWithFontExtractionStategy
類別擴充了ITextExtractionStrategy
介面來擷取格式資訊。在RenderText
方法中:
範例輸出
下面的C#程式碼示範如何從PDF中提取文字以及與字體相關的格式:
<code class="language-csharp">StringBuilder result = new StringBuilder(); PdfReader reader = new PdfReader(System.IO.Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.Desktop), "Document.pdf")); TextWithFontExtractionStategy S = new TextWithFontExtractionStategy(); string F = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(reader, 1, S); Console.WriteLine(F);</code>
產生的HTML輸出包含字型系列、字型大小和字型樣式的標籤。
其他考慮因素
PostscriptFontName
可能包含額外的字符,這可能與字體子集相關。 以上是如何使用 iTextSharp 從 PDF 檢索文字格式(字型、大小、樣式)?的詳細內容。更多資訊請關注PHP中文網其他相關文章!