Pytesseract OCR dengan Pengecaman Digit Tunggal dan Kekangan Nombor Sahaja
Dalam konteks Pytesseract, mengkonfigurasi Tesseract untuk mengecam satu digit dan mengehadkan output kepada nombor boleh mencabar. Untuk menangani isu ini, kami menyelidiki secara spesifik pilihan konfigurasi Tesseract.
Mod Segmentasi Halaman Tesseract
Tesseract menawarkan pelbagai mod pembahagian halaman (psm) untuk mengendalikan teks yang pelbagai susun atur. Untuk pengecaman aksara tunggal, psm yang sesuai ialah 10. Mod ini menganggap imej sebagai aksara tunggal.
Senarai Putih Aksara
Untuk mengehadkan aksara yang dikenali kepada nombor, kami boleh memanfaatkan parameter konfigurasi tessedit_char_whitelist. Dengan menyatakan 0123456789 sebagai senarai putih, Tesseract hanya akan menerima aksara ini.
Penggunaan Contoh
Berikut ialah contoh penggunaan image_to_string dengan berbilang pilihan konfigurasi:
target = pytesseract.image_to_string(image, lang='eng', boxes=False, config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')
Dengan menetapkan psm kepada 10 dan menggunakan senarai putih aksara, konfigurasi ini memastikan bahawa Tesseract akan mengenali satu digit sambil mengehadkan output kepada nilai berangka. Selain itu, lang menentukan bahasa, kotak melumpuhkan sempadan kotak teks dan oem memilih enjin OCR.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengkonfigurasi Pytesseract untuk Pengecaman Digit Tunggal dengan Output Nombor Sahaja?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!