iTextSharp를 사용하여 PDF 텍스트 형식 정보(글꼴, 크기 등) 추출
iTextSharp 라이브러리는 PDF 텍스트와 글꼴 및 글꼴 크기와 같은 서식 정보를 추출할 수 있습니다. 다음은 TextWithFontExtractionStrategy
을 사용하여 이 기능을 구현하는 방법의 예입니다.
<code class="language-csharp">PdfReader reader = new PdfReader(System.IO.Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.Desktop), "Document.pdf")); TextWithFontExtractionStrategy strategy = new TextWithFontExtractionStrategy(); string text = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(reader, 1, strategy); Console.WriteLine(text);</code>
TextWithFontExtractionStrategy
TextRenderInfo
개체를 사용하여 PDF 콘텐츠에서 텍스트 형식 정보를 추출합니다. TextRenderInfo
객체에는 GetFont
, GetFontName
, GetFontSize
, GetBaseline
, GetAscentLine
과 같은 속성이 포함되어 있습니다.
이러한 속성을 사용하여 텍스트의 글꼴 모음, 글꼴 크기 및 기준선 위치를 가져올 수 있습니다. 다음은 이러한 속성을 사용하여 텍스트 서식 정보를 추출하는 방법에 대한 예입니다.
<code class="language-csharp">// 获取字体系列 string fontFamily = renderInfo.GetFont().PostscriptFontName; // 获取字号 float fontSize = renderInfo.GetBaseline().GetEndPoint()[Vector.I2] - renderInfo.GetBaseline().GetStartPoint()[Vector.I2]; // 获取基线位置 Vector baseline = renderInfo.GetBaseline().GetStartPoint();</code>
renderInfo
에서 반환된 텍스트를 처리하는 동안 TextWithFontExtractionStrategy
개체를 가져와야 합니다. 전체 코드에는 각 줄이나 텍스트 조각에서 형식 지정 정보를 추출하기 위해 TextRenderInfo
개체를 처리하는 루프가 포함되어야 합니다. 위의 예는 TextRenderInfo
객체의 속성에 액세스하는 방법만 보여줍니다.
위 내용은 iTextSharp를 사용하여 텍스트 서식 정보(글꼴, 크기 등)를 어떻게 추출할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!