Konfigurasi Tesseract untuk Penalaan Halus Ketepatan OCR
Pytesseract, perpustakaan OCR yang diterima pakai secara meluas, menawarkan pilihan konfigurasi yang mantap untuk mengoptimumkan pengecaman aksara. Untuk menangani cabaran khusus seperti membezakan digit daripada huruf, pertanyaan ini mendapatkan panduan tentang mengkonfigurasi Tesseract dengan berkesan.
Persediaan Berbilang Konfig untuk Pengecaman Berfokus Digit
Persediaan asal menggunakan kedua-dua -psm 7 untuk pembahagian halaman dan digit pangkalan keluaran untuk mengehadkan output kepada digit. Walau bagaimanapun, untuk hasil yang optimum:
Sampel Penggunaan Konfigurasi
Berikut ialah ilustrasi cara untuk laksanakan konfigurasi ini menggunakan image_to_string:
target = pytesseract.image_to_string(image, lang='eng', boxes=False, \ config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')
Konfigurasi ini memanfaatkan --psm 10 untuk aksara pengiktirafan, --oem 3 untuk pemilihan enjin Tesseract, dan -c tessedit_char_whitelist=0123456789 untuk menguatkuasakan sekatan digit. Dengan menentukan berbilang konfigurasi secara serentak, anda boleh memperhalusi tingkah laku Tesseract untuk memenuhi keperluan khusus anda.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Menala Halus Tesseract OCR untuk Pengecaman Digit Tepat?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!