Rumah > pembangunan bahagian belakang > C++ > Bagaimanakah Saya Boleh Mengekstrak Teks dengan Cekap daripada Fail PDF Menggunakan iTextSharp dalam VB.NET atau C#?

Bagaimanakah Saya Boleh Mengekstrak Teks dengan Cekap daripada Fail PDF Menggunakan iTextSharp dalam VB.NET atau C#?

DDD
Lepaskan: 2025-01-06 08:03:43
asal
802 orang telah melayarinya

How Can I Efficiently Extract Text from PDF Files Using iTextSharp in VB.NET or C#?

Mengekstrak Kandungan PDF dengan iTextSharp dalam VB.NET atau C

Membaca kandungan dokumen PDF boleh menjadi tugas biasa apabila membina aplikasi yang mantap dan serba boleh. iTextSharp, perpustakaan sumber terbuka yang berkuasa, menyediakan penyelesaian yang komprehensif untuk mengurus dokumen PDF dalam aplikasi .NET anda.

Apabila ia datang untuk mengekstrak teks daripada fail PDF, iTextSharp menawarkan kelas PdfReader, alat penting untuk teks tujuan pengekstrakan. Kelas ini membolehkan anda mengakses halaman individu bagi dokumen PDF dan dengan bantuan strategi SimpleTextExtractionStrategy, anda boleh mendapatkan semula kandungan teks biasa daripada halaman tersebut.

Untuk mengekstrak teks daripada PDF berasaskan imej, iTextSharp memanfaatkan enjin OCR seperti Tesseract. Enjin ini mengecam dan mengekstrak teks daripada imej, membolehkan anda menangkap kandungan daripada PDF yang mengandungi imej teks.

Berikut ialah contoh yang menunjukkan cara membaca kandungan PDF menggunakan PdfReader dalam VB.NET atau C#:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System;
using System.IO;
using System.Text;

public static class PdfReaderExample
{
    public static string ReadPdfFile(string filePath)
    {
        var sb = new StringBuilder();
        
        if (File.Exists(filePath))
        {
            var reader = new PdfReader(filePath);
            
            for (var page = 1; page <= reader.NumberOfPages; page++)
            {
                var strategy = new SimpleTextExtractionStrategy();
                var text = PdfTextExtractor.GetTextFromPage(reader, page, strategy);
                
                text = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(text)));
                sb.Append(text);
            }
            
            reader.Close();
        }
        
        return sb.ToString();
    }
}
Salin selepas log masuk

Dalam contoh ini:

  • PdfReader dimulakan, membenarkan akses kepada kandungan dokumen PDF.
  • Setiap halaman PDF diproses menggunakan PdfTextExtractor dengan SimpleTextExtractionStrategy.
  • Teks yang diekstrak ditukar kepada pengekodan UTF-8 untuk perwakilan teks yang tepat.
  • Teks yang diekstrak terakhir disimpan dalam pembolehubah rentetan dan dikembalikan sebagai hasilnya.

Dengan menggunakan keupayaan iTextSharp, anda boleh membaca kandungan fail PDF anda dengan mudah, memperkasakan aplikasi anda dengan keupayaan untuk memproses dan menganalisis dokumen PDF.

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengekstrak Teks dengan Cekap daripada Fail PDF Menggunakan iTextSharp dalam VB.NET atau C#?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan