Rumah > pembangunan bahagian belakang > C++ > Bagaimana Saya Boleh Dapatkan Pemformatan Teks (Fon, Saiz, Gaya) daripada PDF Menggunakan iTextSharp?

Bagaimana Saya Boleh Dapatkan Pemformatan Teks (Fon, Saiz, Gaya) daripada PDF Menggunakan iTextSharp?

Barbara Streisand
Lepaskan: 2025-01-11 10:56:42
asal
513 orang telah melayarinya

How Can I Retrieve Text Formatting (Font, Size, Style) from a PDF Using iTextSharp?

Cara mengekstrak format teks menggunakan iTextSharp

Walaupun iTextSharp menyediakan kaedah pengekstrakan teks yang cekap, ia mungkin mempunyai kelemahan dalam mengekalkan butiran pemformatan seperti fon, warna dan saiz. Untuk mengatasi batasan ini, kami meneroka pendekatan alternatif.

Strategi pengekstrakan teks tersuai

Kelas TextWithFontExtractionStategy tersuai memanjangkan antara muka ITextExtractionStrategy untuk menangkap maklumat format. Dalam kaedah RenderText:

  • Ia memantau nama fon, penggunaan pseudo-bold, perubahan garis dasar dan perubahan saiz fon.
  • Jika mana-mana atribut ini berubah, ia akan menutup teg span HTML semasa dan mencipta yang baharu dengan gaya yang sepadan.

Contoh output

Kod C# berikut menunjukkan cara mengekstrak teks dan pemformatan berkaitan fon daripada PDF:

<code class="language-csharp">StringBuilder result = new StringBuilder();
PdfReader reader = new PdfReader(System.IO.Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.Desktop), "Document.pdf"));
TextWithFontExtractionStategy S = new TextWithFontExtractionStategy();
string F = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(reader, 1, S);
Console.WriteLine(F);</code>
Salin selepas log masuk

Output HTML yang dijana mengandungi teg untuk keluarga fon, saiz fon dan gaya fon.

Pertimbangan lain

  • PostscriptFontName mungkin mengandungi aksara tambahan, yang mungkin berkaitan dengan subset fon.
  • Kod contoh menganggap bahawa perubahan dalam garis dasar mewakili baris baharu dalam HTML.
  • Proses pengekstrakan pada masa ini tidak menangkap maklumat warna, tetapi terdapat tanda-tanda bahawa ini boleh dicapai secara manual.

Atas ialah kandungan terperinci Bagaimana Saya Boleh Dapatkan Pemformatan Teks (Fon, Saiz, Gaya) daripada PDF Menggunakan iTextSharp?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan