Rumah > pembangunan bahagian belakang > C++ > Bagaimana untuk Mengekstrak Teks dan Imej daripada PDF menggunakan iTextSharp dalam .NET?

Bagaimana untuk Mengekstrak Teks dan Imej daripada PDF menggunakan iTextSharp dalam .NET?

DDD
Lepaskan: 2025-01-06 07:51:41
asal
935 orang telah melayarinya

How to Extract Text and Images from PDFs using iTextSharp in .NET?

Mengekstrak Kandungan PDF dengan iTextSharp dalam .NET

Dalam aplikasi .NET, iTextSharp menyediakan keupayaan teguh untuk mengendalikan dokumen PDF. Salah satu ciri utamanya ialah keupayaan untuk mengekstrak kandungan daripada PDF, termasuk kedua-dua teks dan imej.

Membaca Teks Biasa daripada PDF

Untuk membaca teks biasa daripada PDF menggunakan iTextSharp, anda boleh memanfaatkan kod berikut:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System.IO;

public string ReadPdfText(string fileName)
{
    StringBuilder text = new StringBuilder();

    if (File.Exists(fileName))
    {
        PdfReader pdfReader = new PdfReader(fileName);

        for (int page = 1; page <= pdfReader.NumberOfPages; page++)
        {
            ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
            string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
            text.Append(currentText);
        }
        pdfReader.Close();
    }
    return text.ToString();
}
Salin selepas log masuk

Dalam contoh ini, kaedah ReadPdfText membaca kandungan fail PDF dan mengumpul teks ke dalam objek StringBuilder. SimpleTextExtractionStrategy digunakan untuk mengekstrak teks daripada setiap halaman PDF.

Mengendalikan Imej dalam PDF

Walaupun kod di atas memfokuskan pada mengekstrak teks, iTextSharp juga membolehkan anda untuk mengekstrak imej daripada PDF. Anda boleh menggunakan pendekatan berikut:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System;
using System.Drawing;
using System.IO;

public void ReadPdfImages(string fileName)
{
    if (File.Exists(fileName))
    {
        PdfReader pdfReader = new PdfReader(fileName);

        for (int page = 1; page <= pdfReader.NumberOfPages; page++)
        {
            PdfReaderContentParser parser = new PdfReaderContentParser(pdfReader);
            string content = parser.ProcessContent(page, new ImageRenderListener());
        }
    }
}
Salin selepas log masuk

Dalam kod ini, PdfReaderContentParser digunakan untuk menghuraikan kandungan setiap halaman. ImageRenderListener menyediakan kaedah panggil balik yang mengendalikan pemaparan imej. Setiap imej dipaparkan sebagai objek Bitmap, yang boleh diproses atau disimpan selanjutnya.

Atas ialah kandungan terperinci Bagaimana untuk Mengekstrak Teks dan Imej daripada PDF menggunakan iTextSharp dalam .NET?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan