Pilihan Konfigurasi Berbilang untuk OCR Pytesseract
Pytesseract ialah alat OCR berkuasa yang digunakan secara meluas untuk mengekstrak teks daripada imej. Walau bagaimanapun, ia mungkin menghadapi cabaran apabila ditugaskan untuk mengenali set watak tertentu. Untuk mengatasi pengehadan ini, pengguna sering menggunakan konfigurasi Tesseract dengan parameter tersuai.
Satu senario biasa melibatkan konfigurasi Tesseract untuk menerima satu digit sambil mengecualikan aksara lain. Ini menjadi penting apabila membezakan antara nombor sifar dan huruf 'O,' yang mungkin kelihatan sama dalam beberapa keadaan. Untuk mencapai matlamat ini, Tesseract menawarkan berbilang pilihan konfigurasi yang boleh dilaraskan dengan sewajarnya.
Menggunakan Parameter psm dan tessedit_char_whitelist
Dengan keluaran Tesseract 4.0.0a, pengguna mendapat akses kepada julat yang lebih luas bagi mod pembahagian halaman (nilai psm). Untuk senario di mana pengecaman aksara tunggal adalah objektif utama, menetapkan psm kepada 10 terbukti berkesan. Parameter ini mengarahkan Tesseract untuk menganggap imej sebagai satu aksara.
Selain itu, untuk mengehadkan pengecaman Tesseract kepada nombor sahaja, pengguna boleh menggunakan parameter tessedit_char_whitelist. Dengan menyatakan senarai putih aksara, seperti 0123456789, Tesseract akan mengecam secara eksklusif aksara dalam senarai putih itu.
Penggunaan Contoh
Kod berikut menunjukkan cara menggabungkan psm dan tessedit_char_whitelist parameter dalam amali tetapan:
import pytesseract target = pytesseract.image_to_string(image, lang='eng', boxes=False, \ config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')
Dalam contoh ini, pembolehubah imej mewakili imej input yang akan diproses dan lang='eng' menyatakan bahawa teks itu dalam bahasa Inggeris. Dengan menetapkan kotak=Salah, fungsi tidak akan mengeluarkan kotak sempadan untuk aksara yang dikenali.
Parameter --psm 10 memastikan pengecaman aksara tunggal digunakan, manakala parameter --oem 3 memilih enjin OCR lalai. Akhir sekali, parameter -c tessedit_char_whitelist=0123456789 mengehadkan pengecaman kepada nombor sahaja.
Dengan memahami dan memanfaatkan berbilang pilihan konfigurasi ini, pengguna boleh menyesuaikan tingkah laku Pytesseract dengan berkesan agar sesuai dengan keperluan OCR khusus mereka, membolehkan pengekstrakan teks yang tepat dan tepat.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengkonfigurasi Pytesseract untuk Mengecam Hanya Digit Tunggal?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!