Bagaimana Saya Boleh Dapatkan Pemformatan Teks (Fon, Saiz, Gaya) daripada PDF Menggunakan iTextSharp?-C++-php.cn

Bagaimana Saya Boleh Dapatkan Pemformatan Teks (Fon, Saiz, Gaya) daripada PDF Menggunakan iTextSharp?

Barbara Streisand

Lepaskan： 2025-01-11 10:56:42

asal

543 orang telah melayarinya

How Can I Retrieve Text Formatting (Font, Size, Style) from a PDF Using iTextSharp?

Cara mengekstrak format teks menggunakan iTextSharp

Walaupun iTextSharp menyediakan kaedah pengekstrakan teks yang cekap, ia mungkin mempunyai kelemahan dalam mengekalkan butiran pemformatan seperti fon, warna dan saiz. Untuk mengatasi batasan ini, kami meneroka pendekatan alternatif.

Strategi pengekstrakan teks tersuai

Kelas TextWithFontExtractionStategy tersuai memanjangkan antara muka ITextExtractionStrategy untuk menangkap maklumat format. Dalam kaedah RenderText:

Ia memantau nama fon, penggunaan pseudo-bold, perubahan garis dasar dan perubahan saiz fon.
Jika mana-mana atribut ini berubah, ia akan menutup teg span HTML semasa dan mencipta yang baharu dengan gaya yang sepadan.

Contoh output

Kod C# berikut menunjukkan cara mengekstrak teks dan pemformatan berkaitan fon daripada PDF:

StringBuilder result = new StringBuilder();
PdfReader reader = new PdfReader(System.IO.Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.Desktop), "Document.pdf"));
TextWithFontExtractionStategy S = new TextWithFontExtractionStategy();
string F = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(reader, 1, S);
Console.WriteLine(F);

Salin selepas log masuk

Output HTML yang dijana mengandungi teg untuk keluarga fon, saiz fon dan gaya fon.

Pertimbangan lain

PostscriptFontName mungkin mengandungi aksara tambahan, yang mungkin berkaitan dengan subset fon.
Kod contoh menganggap bahawa perubahan dalam garis dasar mewakili baris baharu dalam HTML.
Proses pengekstrakan pada masa ini tidak menangkap maklumat warna, tetapi terdapat tanda-tanda bahawa ini boleh dicapai secara manual.

Atas ialah kandungan terperinci Bagaimana Saya Boleh Dapatkan Pemformatan Teks (Fon, Saiz, Gaya) daripada PDF Menggunakan iTextSharp?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!