Utilisez iTextSharp pour extraire les informations sur le format de texte PDF (police, taille, etc.)
La bibliothèque iTextSharp peut extraire le texte PDF et ses informations de formatage, telles que la police et la taille de la police. Voici un exemple de la façon d'utiliser TextWithFontExtractionStrategy
pour obtenir cette fonctionnalité :
<code class="language-csharp">PdfReader reader = new PdfReader(System.IO.Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.Desktop), "Document.pdf")); TextWithFontExtractionStrategy strategy = new TextWithFontExtractionStrategy(); string text = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(reader, 1, strategy); Console.WriteLine(text);</code>
TextWithFontExtractionStrategy
Utilisez l'objet TextRenderInfo
pour extraire les informations de format de texte du contenu PDF. L'objet TextRenderInfo
contient des attributs tels que GetFont
, GetFontName
, GetFontSize
, GetBaseline
et GetAscentLine
.
Vous pouvez utiliser ces propriétés pour obtenir la famille de polices, la taille de la police et la position de base du texte. Voici un exemple d'utilisation de ces propriétés pour extraire des informations de formatage de texte :
<code class="language-csharp">// 获取字体系列 string fontFamily = renderInfo.GetFont().PostscriptFontName; // 获取字号 float fontSize = renderInfo.GetBaseline().GetEndPoint()[Vector.I2] - renderInfo.GetBaseline().GetStartPoint()[Vector.I2]; // 获取基线位置 Vector baseline = renderInfo.GetBaseline().GetStartPoint();</code>
Veuillez noter que l'objet renderInfo
doit être obtenu lors du traitement du texte renvoyé par TextWithFontExtractionStrategy
. Le code complet doit inclure une boucle qui traite les objets TextRenderInfo
afin d'extraire les informations de formatage de chaque ligne ou fragment de texte. L'exemple ci-dessus montre uniquement comment accéder aux propriétés de l'objet TextRenderInfo
.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!