


Bagaimanakah Saya Boleh Mengekstrak Teks Bukan Bahasa Inggeris daripada PDF Menggunakan iTextSharp dalam C# Tanpa Output Bercelaru?
Gunakan iTextSharp untuk membaca kandungan PDF bukan bahasa Inggeris
Apabila menggunakan iTextSharp dalam C# untuk mengekstrak teks daripada dokumen PDF, pengguna mungkin menghadapi masalah jika kandungan dalam bahasa bukan Inggeris (seperti Farsi atau Arab). Ini boleh mengakibatkan teks bercelaru kerana kaedah pengekodan terbina dalam tidak dapat mengendalikan set aksara ini.
Untuk menyelesaikan isu ini, pastikan anda mengelak daripada melakukan sebarang penukaran pengekodan yang tidak perlu pada teks yang diperoleh daripada PDF. Dalam iTextSharp, kaedah PdfTextExtractor.GetTextFromPage()
mengekstrak teks mentah daripada halaman PDF. Penukaran kepada Unicode hendaklah dikendalikan kemudian dengan cara terkawal.
Coretan kod yang disediakan cuba menggunakan Encoding.UTF8
untuk mengekod semula teks, yang merupakan pendekatan yang salah. Coretan kod ringkas berikut menggambarkan pendekatan yang betul:
public string ReadPdfFileWithoutEncoding(string fileName) { StringBuilder text = new StringBuilder(); if (File.Exists(fileName)) { PdfReader pdfReader = new PdfReader(fileName); for (int page = 1; page <= pdfReader.NumberOfPages; page++) { text.Append(PdfTextExtractor.GetTextFromPage(pdfReader, page)); } pdfReader.Close(); } return text.ToString(); }
Sila ambil perhatian bahawa adalah penting untuk memastikan aplikasi anda menggunakan versi terkini iTextSharp. Versi lama mungkin mempunyai had dalam mengendalikan teks bukan bahasa Inggeris. Selain itu, aplikasi yang bertanggungjawab untuk memaparkan teks yang diekstrak mesti menyokong aksara Unicode.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengekstrak Teks Bukan Bahasa Inggeris daripada PDF Menggunakan iTextSharp dalam C# Tanpa Output Bercelaru?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Apakah jenis nilai yang dikembalikan oleh fungsi bahasa C? Apa yang menentukan nilai pulangan?

Gulc: Perpustakaan C dibina dari awal

Langkah Format Fungsi Fungsi C Langkah Penukaran Kes

Apakah definisi dan peraturan panggilan fungsi bahasa C dan apakah itu

Di manakah nilai pulangan fungsi bahasa C yang disimpan dalam ingatan?

Penggunaan dan perkongsian frasa yang berbeza

Bagaimanakah saya menggunakan algoritma dari STL (jenis, mencari, mengubah, dll) dengan cekap?

Bagaimana Perpustakaan Templat St Standard (STL) berfungsi?
