Cara mengekstrak format teks menggunakan iTextSharp
Walaupun iTextSharp menyediakan kaedah pengekstrakan teks yang cekap, ia mungkin mempunyai kelemahan dalam mengekalkan butiran pemformatan seperti fon, warna dan saiz. Untuk mengatasi batasan ini, kami meneroka pendekatan alternatif.
Strategi pengekstrakan teks tersuai
Kelas TextWithFontExtractionStategy
tersuai memanjangkan antara muka ITextExtractionStrategy
untuk menangkap maklumat format. Dalam kaedah RenderText
:
Contoh output
Kod C# berikut menunjukkan cara mengekstrak teks dan pemformatan berkaitan fon daripada PDF:
<code class="language-csharp">StringBuilder result = new StringBuilder(); PdfReader reader = new PdfReader(System.IO.Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.Desktop), "Document.pdf")); TextWithFontExtractionStategy S = new TextWithFontExtractionStategy(); string F = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(reader, 1, S); Console.WriteLine(F);</code>
Output HTML yang dijana mengandungi teg untuk keluarga fon, saiz fon dan gaya fon.
Pertimbangan lain
PostscriptFontName
mungkin mengandungi aksara tambahan, yang mungkin berkaitan dengan subset fon. Atas ialah kandungan terperinci Bagaimana Saya Boleh Dapatkan Pemformatan Teks (Fon, Saiz, Gaya) daripada PDF Menggunakan iTextSharp?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!