Bagaimana untuk Mengekstrak Kandungan PDF dengan Cekap menggunakan iTextSharp dalam C# atau VB.NET?-C++-php.cn

Jadual Kandungan

Mengekstrak Kandungan PDF menggunakan iTextSharp

Rumah

pembangunan bahagian belakang

C++

Bagaimana untuk Mengekstrak Kandungan PDF dengan Cekap menggunakan iTextSharp dalam C# atau VB.NET?

Jan 06, 2025 am 07:46 AM

How to Extract PDF Content Efficiently using iTextSharp in C# or VB.NET?

Mengekstrak Kandungan PDF menggunakan iTextSharp

Soalan:

Cara untuk mendapatkan semula kandungan dokumen PDF menggunakan iTextSharp dalam sama ada VB.NET atau C#?

Jawapan:

iTextSharp menyediakan mekanisme yang boleh dipercayai untuk membaca kandungan PDF melalui kelas PdfReadernya. Berikut ialah penyelesaian C# yang komprehensif untuk mengekstrak kedua-dua teks dan imej daripada dokumen PDF:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System;
using System.IO;
using System.Text;

namespace PdfContentReader
{
    public static class Program
    {
        public static string ReadPdfFile(string fileName)
        {
            StringBuilder text = new StringBuilder();

            if (File.Exists(fileName))
            {
                PdfReader pdfReader = new PdfReader(fileName);

                for (int page = 1; page &lt;= pdfReader.NumberOfPages; page++)
                {
                    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                    string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

                    currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
                    text.Append(currentText);
                }
                pdfReader.Close();
            }
            return text.ToString();
        }

        public static void Main(string[] args)
        {
            string fileName = @"path\to\file.pdf";
            string extractedText = ReadPdfFile(fileName);

            Console.WriteLine(extractedText);
        }
    }
}

Salin selepas log masuk

Dalam pelaksanaan ini:

Kaedah ReadPdfFile mengambil nama fail sebagai hujah dan mengekstrak kandungan teks daripada setiap halaman dokumen PDF.
Kami menggunakan SimpleTextExtractionStrategy untuk mengekstrak teks biasa daripada PDF dokumen.
Kami menangani isu pengekodan yang berpotensi dengan menukar teks yang diekstrak kepada pengekodan UTF-8.

Penyelesaian ini dengan cekap mengekstrak kandungan teks daripada dokumen PDF, mengendalikan kedua-dua teks biasa dan imej terbenam dengan berkesan.

Atas ialah kandungan terperinci Bagaimana untuk Mengekstrak Kandungan PDF dengan Cekap menggunakan iTextSharp dalam C# atau VB.NET?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn