Pytesseract OCR: Mengkonfigurasi untuk Pengecaman Satu Digit dan Nombor Sahaja
Pytesseract, perpustakaan OCR sumber terbuka, memberikan kefleksibelan dalam mengkonfigurasi enjinnya untuk keperluan tertentu. Dalam konteks ini, kami berhasrat untuk mengkonfigurasi Tesseract untuk mengecam satu digit sambil mengehadkannya kepada nombor, kerana digit '0' selalunya boleh disalahtafsirkan sebagai huruf 'O'.
Definisi Masalah
Pengguna menghadapi kesukaran semasa mengkonfigurasi Pytesseract untuk tujuan ini menggunakan yang berikut sintaks:
target = pytesseract.image_to_string(im,config='-psm 7',config='outputbase digits')
Parameter Konfigurasi
Seperti yang digariskan dalam tesseract-4.0.0a, Tesseract menyokong pelbagai mod pembahagian halaman, setiap satu dengan ciri khusus. Untuk mendayakan pengecaman aksara tunggal, kami menetapkan psm kepada 10. Selain itu, untuk mengehadkan pengecaman kepada angka, kami menetapkan tessedit_char_whitelist untuk memasukkan hanya julat digit yang dikehendaki (0-9).
target = pytesseract.image_to_string(image, lang='eng', boxes=False, \ config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')
Atas ialah kandungan terperinci Bagaimana untuk Mengkonfigurasi Pytesseract untuk Pengecaman Nombor Satu Digit Sahaja?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!