Options de configuration multiples pour Pytesseract OCR
Pytesseract est un puissant outil OCR largement utilisé pour extraire du texte à partir d'images. Cependant, il peut rencontrer des difficultés lorsqu'il est chargé de reconnaître des jeux de caractères spécifiques. Pour surmonter ces limitations, les utilisateurs ont souvent recours à la configuration de Tesseract avec des paramètres personnalisés.
Un scénario courant implique de configurer Tesseract pour accepter des chiffres uniques tout en excluant d'autres caractères. Cela devient essentiel pour faire la distinction entre le chiffre zéro et la lettre « O », qui peut paraître identique dans certains cas. Pour y parvenir, Tesseract propose plusieurs options de configuration qui peuvent être ajustées en conséquence.
À l'aide des paramètres psm et tessedit_char_whitelist
Avec la sortie de Tesseract 4.0.0a, les utilisateurs ont accès à une gamme plus large de modes de segmentation de page (valeurs psm). Pour les scénarios où la reconnaissance d’un seul caractère est l’objectif principal, définir psm sur 10 s’avère efficace. Ce paramètre demande à Tesseract de traiter l'image comme un seul caractère.
De plus, pour limiter la reconnaissance de Tesseract aux nombres uniquement, les utilisateurs peuvent utiliser le paramètre tessedit_char_whitelist. En spécifiant une liste blanche de caractères, telle que 0123456789, Tesseract reconnaîtra exclusivement les caractères de cette liste blanche.
Exemple d'utilisation
Le code suivant montre comment combiner le psm et la tessedit_char_whitelist paramètres dans un cadre pratique :
import pytesseract target = pytesseract.image_to_string(image, lang='eng', boxes=False, \ config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')
Dans cet exemple, la variable image représente l'image d'entrée à traiter et lang='eng' précise que le texte est en anglais. En définissant boxes=False, la fonction n'affichera pas de cadres de délimitation pour les caractères reconnus.
Le paramètre --psm 10 garantit que la reconnaissance d'un seul caractère est utilisée, tandis que le paramètre --oem 3 sélectionne le moteur OCR par défaut. Enfin, le paramètre -c tessedit_char_whitelist=0123456789 restreint la reconnaissance aux nombres uniquement.
En comprenant et en exploitant ces multiples options de configuration, les utilisateurs peuvent adapter efficacement le comportement de Pytesseract à leurs besoins OCR spécifiques, permettant ainsi une extraction de texte précise et précise.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!