Comment extraire le format de texte à l'aide d'iTextSharp
Bien qu'iTextSharp fournisse une méthode d'extraction de texte efficace, elle peut présenter des lacunes dans la conservation des détails de formatage tels que les polices, les couleurs et les tailles. Pour surmonter cette limitation, nous avons exploré une approche alternative.
Stratégie d'extraction de texte personnalisée
La classe TextWithFontExtractionStategy
personnalisée étend l'interface ITextExtractionStrategy
pour capturer les informations de format. Dans la méthode RenderText
:
Exemple de sortie
Le code C# suivant montre comment extraire le formatage du texte et des polices d'un PDF :
<code class="language-csharp">StringBuilder result = new StringBuilder(); PdfReader reader = new PdfReader(System.IO.Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.Desktop), "Document.pdf")); TextWithFontExtractionStategy S = new TextWithFontExtractionStategy(); string F = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(reader, 1, S); Console.WriteLine(F);</code>
La sortie HTML générée contient des balises pour la famille de polices, la taille de police et le style de police.
Autres considérations
PostscriptFontName
peut contenir des caractères supplémentaires, qui peuvent être liés au sous-ensemble de polices. Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!