Konfigurasi Berbilang Konfigurasi OCR Pytesseract
Apabila menggunakan Pytesseract untuk Pengecaman Aksara Optik (OCR), adalah penting untuk mengoptimumkan tetapannya untuk meningkatkan ketepatan untuk senario tertentu. Artikel ini menangani isu tertentu di mana OCR mengalami kesukaran membezakan antara nombor satu digit dan huruf 'O'.
Masalah:
Pytesseract tidak boleh membezakan antara nombor sifar dan huruf 'O' apabila dikonfigurasikan dengan '-psm 7' untuk satu digit pengiktirafan.
Penyelesaian:
Untuk menangani cabaran ini, Tesseract 4.0.0a menyediakan dua pilihan konfigurasi utama:
Kod Contoh:
Kod berikut menunjukkan cara menggunakan pilihan konfigurasi ini bersama-sama:
import pytesseract from PIL import Image # Load the image im = Image.open('digits_image.png') # Multiple configuration options target = pytesseract.image_to_string(im, config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')
Dengan konfigurasi ini, Pytesseract boleh mengecam dengan tepat nombor satu digit sambil mengecualikan kemungkinan tersalah anggap sebagai 'O'.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengkonfigurasi Pytesseract untuk Membezakan Antara \'0\' dan \'O\' dalam Pengecaman Satu Digit?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!