Rumah > pembangunan bahagian belakang > C++ > Bagaimanakah PdfReader iTextSharp Boleh Mengekstrak Teks dan Imej daripada Fail PDF?

Bagaimanakah PdfReader iTextSharp Boleh Mengekstrak Teks dan Imej daripada Fail PDF?

Susan Sarandon
Lepaskan: 2025-01-06 07:43:45
asal
218 orang telah melayarinya

How Can iTextSharp's PdfReader Extract Text and Images from PDF Files?

Teknik Membaca Kandungan PDF Menggunakan PdfReader iTextSharp

Apabila bekerja dengan dokumen PDF, mengekstrak kandungan adalah penting untuk analisis data, carian teks dan pemprosesan selanjutnya. iTextSharp, pustaka C# dan VB.NET yang terkenal, menyediakan alatan berkuasa untuk membaca dan menghuraikan kandungan PDF.

Kelas PdfReader dalam iTextSharp membolehkan pembangun mengakses kandungan fail PDF dengan cekap. Ia menawarkan pelbagai pilihan untuk mengekstrak teks biasa dan imej yang dibenamkan dalam dokumen.

Ekstrak Teks Biasa

Untuk mengekstrak teks biasa daripada PDF, anda boleh memanfaatkan SimpleTextExtractionStrategy kelas:

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
Salin selepas log masuk

Di sini, currentText akan mengandungi kandungan teks yang diekstrak daripada yang ditentukan muka surat. Ambil perhatian bahawa teks mungkin mengandungi aksara bukan Unikod, yang boleh anda tukar kepada format UTF-8 untuk pengendalian yang betul.

Pengeluaran Imej

Jika PDF termasuk imej terbenam , anda boleh mengekstraknya menggunakan kelas PdfImageExtender:

PdfImageExtender extender = new PdfImageExtender();
List<Image> images = extender.GetImagesFromPage(pdfReader, page);
Salin selepas log masuk

Kod ini mendapatkan semula senarai objek Imej mewakili imej pada halaman yang ditentukan. Anda kemudiannya boleh mengakses data setiap imej dan menyimpannya dalam format yang sesuai.

Atas ialah kandungan terperinci Bagaimanakah PdfReader iTextSharp Boleh Mengekstrak Teks dan Imej daripada Fail PDF?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan