Gunakan iTextSharp untuk mengekstrak maklumat format teks PDF (fon, saiz, dll.)
Pustaka iTextSharp boleh mengekstrak teks PDF dan maklumat pemformatannya, seperti fon dan saiz fon. Berikut ialah contoh cara menggunakan TextWithFontExtractionStrategy
untuk mencapai fungsi ini:
<code class="language-csharp">PdfReader reader = new PdfReader(System.IO.Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.Desktop), "Document.pdf")); TextWithFontExtractionStrategy strategy = new TextWithFontExtractionStrategy(); string text = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(reader, 1, strategy); Console.WriteLine(text);</code>
TextWithFontExtractionStrategy
Gunakan objek TextRenderInfo
untuk mengekstrak maklumat format teks daripada kandungan PDF. Objek TextRenderInfo
mengandungi atribut seperti GetFont
, GetFontName
, GetFontSize
, GetBaseline
dan GetAscentLine
.
Anda boleh menggunakan sifat ini untuk mendapatkan keluarga fon, saiz fon dan kedudukan garis dasar teks. Berikut ialah contoh cara menggunakan sifat ini untuk mengekstrak maklumat pemformatan teks:
<code class="language-csharp">// 获取字体系列 string fontFamily = renderInfo.GetFont().PostscriptFontName; // 获取字号 float fontSize = renderInfo.GetBaseline().GetEndPoint()[Vector.I2] - renderInfo.GetBaseline().GetStartPoint()[Vector.I2]; // 获取基线位置 Vector baseline = renderInfo.GetBaseline().GetStartPoint();</code>
Sila ambil perhatian bahawa objek renderInfo
perlu diperolehi semasa pemprosesan teks yang dikembalikan oleh TextWithFontExtractionStrategy
. Kod lengkap perlu memasukkan gelung yang memproses TextRenderInfo
objek untuk mengekstrak maklumat pemformatan daripada setiap baris atau serpihan teks. Contoh di atas hanya menunjukkan cara untuk mengakses sifat objek TextRenderInfo
.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengekstrak Maklumat Pemformatan Teks (Fon, Saiz, dll.) Menggunakan iTextSharp?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!