iTextSharp を使用して PDF テキスト形式情報 (フォント、サイズなど) を抽出します
iTextSharp ライブラリは、PDF テキストとその書式設定情報 (フォントやフォント サイズなど) を抽出できます。 TextWithFontExtractionStrategy
を使用してこの機能を実現する方法の例を次に示します。
<code class="language-csharp">PdfReader reader = new PdfReader(System.IO.Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.Desktop), "Document.pdf")); TextWithFontExtractionStrategy strategy = new TextWithFontExtractionStrategy(); string text = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(reader, 1, strategy); Console.WriteLine(text);</code>
TextWithFontExtractionStrategy
TextRenderInfo
オブジェクトを使用して、PDF コンテンツからテキスト形式の情報を抽出します。 TextRenderInfo
オブジェクトには、GetFont
、GetFontName
、GetFontSize
、GetBaseline
、GetAscentLine
などの属性が含まれます。
これらのプロパティを使用して、テキストのフォント ファミリー、フォント サイズ、ベースラインの位置を取得できます。これらのプロパティを使用してテキストの書式設定情報を抽出する方法の例を次に示します:
<code class="language-csharp">// 获取字体系列 string fontFamily = renderInfo.GetFont().PostscriptFontName; // 获取字号 float fontSize = renderInfo.GetBaseline().GetEndPoint()[Vector.I2] - renderInfo.GetBaseline().GetStartPoint()[Vector.I2]; // 获取基线位置 Vector baseline = renderInfo.GetBaseline().GetStartPoint();</code>
renderInfo
オブジェクトは、TextWithFontExtractionStrategy
によって返されたテキストの処理中に取得する必要があることに注意してください。 完全なコードには、各行またはテキストの断片から書式設定情報を抽出するために、TextRenderInfo
オブジェクトを処理するループが含まれる必要があります。 上記の例は、TextRenderInfo
オブジェクトのプロパティにアクセスする方法のみを示しています。
以上がiTextSharp を使用してテキストの書式設定情報 (フォント、サイズなど) を抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。