Membaca kandungan dokumen PDF boleh menjadi tugas biasa apabila membina aplikasi yang mantap dan serba boleh. iTextSharp, perpustakaan sumber terbuka yang berkuasa, menyediakan penyelesaian yang komprehensif untuk mengurus dokumen PDF dalam aplikasi .NET anda.
Apabila ia datang untuk mengekstrak teks daripada fail PDF, iTextSharp menawarkan kelas PdfReader, alat penting untuk teks tujuan pengekstrakan. Kelas ini membolehkan anda mengakses halaman individu bagi dokumen PDF dan dengan bantuan strategi SimpleTextExtractionStrategy, anda boleh mendapatkan semula kandungan teks biasa daripada halaman tersebut.
Untuk mengekstrak teks daripada PDF berasaskan imej, iTextSharp memanfaatkan enjin OCR seperti Tesseract. Enjin ini mengecam dan mengekstrak teks daripada imej, membolehkan anda menangkap kandungan daripada PDF yang mengandungi imej teks.
Berikut ialah contoh yang menunjukkan cara membaca kandungan PDF menggunakan PdfReader dalam VB.NET atau C#:
using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; using System; using System.IO; using System.Text; public static class PdfReaderExample { public static string ReadPdfFile(string filePath) { var sb = new StringBuilder(); if (File.Exists(filePath)) { var reader = new PdfReader(filePath); for (var page = 1; page <= reader.NumberOfPages; page++) { var strategy = new SimpleTextExtractionStrategy(); var text = PdfTextExtractor.GetTextFromPage(reader, page, strategy); text = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(text))); sb.Append(text); } reader.Close(); } return sb.ToString(); } }
Dalam contoh ini:
Dengan menggunakan keupayaan iTextSharp, anda boleh membaca kandungan fail PDF anda dengan mudah, memperkasakan aplikasi anda dengan keupayaan untuk memproses dan menganalisis dokumen PDF.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengekstrak Teks dengan Cekap daripada Fail PDF Menggunakan iTextSharp dalam VB.NET atau C#?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!