


Bagaimana untuk Mengekstrak Kandungan PDF dengan Cekap menggunakan iTextSharp dalam C# atau VB.NET?
Jan 06, 2025 am 07:46 AMMengekstrak Kandungan PDF menggunakan iTextSharp
Soalan:
Cara untuk mendapatkan semula kandungan dokumen PDF menggunakan iTextSharp dalam sama ada VB.NET atau C#?
Jawapan:
iTextSharp menyediakan mekanisme yang boleh dipercayai untuk membaca kandungan PDF melalui kelas PdfReadernya. Berikut ialah penyelesaian C# yang komprehensif untuk mengekstrak kedua-dua teks dan imej daripada dokumen PDF:
using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; using System; using System.IO; using System.Text; namespace PdfContentReader { public static class Program { public static string ReadPdfFile(string fileName) { StringBuilder text = new StringBuilder(); if (File.Exists(fileName)) { PdfReader pdfReader = new PdfReader(fileName); for (int page = 1; page <= pdfReader.NumberOfPages; page++) { ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy); currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText))); text.Append(currentText); } pdfReader.Close(); } return text.ToString(); } public static void Main(string[] args) { string fileName = @"path\to\file.pdf"; string extractedText = ReadPdfFile(fileName); Console.WriteLine(extractedText); } } }
Dalam pelaksanaan ini:
- Kaedah ReadPdfFile mengambil nama fail sebagai hujah dan mengekstrak kandungan teks daripada setiap halaman dokumen PDF.
- Kami menggunakan SimpleTextExtractionStrategy untuk mengekstrak teks biasa daripada PDF dokumen.
- Kami menangani isu pengekodan yang berpotensi dengan menukar teks yang diekstrak kepada pengekodan UTF-8.
Penyelesaian ini dengan cekap mengekstrak kandungan teks daripada dokumen PDF, mengendalikan kedua-dua teks biasa dan imej terbenam dengan berkesan.
Atas ialah kandungan terperinci Bagaimana untuk Mengekstrak Kandungan PDF dengan Cekap menggunakan iTextSharp dalam C# atau VB.NET?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Artikel Panas

Alat panas Tag

Artikel Panas

Tag artikel panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Langkah Format Fungsi Fungsi C Langkah Penukaran Kes

Gulc: Perpustakaan C dibina dari awal

Apakah jenis nilai yang dikembalikan oleh fungsi bahasa C? Apa yang menentukan nilai pulangan?

Bagaimana Perpustakaan Templat St Standard (STL) berfungsi?

Apakah definisi dan peraturan panggilan fungsi bahasa C dan apakah itu

Di manakah nilai pulangan fungsi bahasa C yang disimpan dalam ingatan?

Penggunaan dan perkongsian frasa yang berbeza

Bagaimanakah saya menggunakan algoritma dari STL (jenis, mencari, mengubah, dll) dengan cekap?
