> 백엔드 개발 > 파이썬 튜토리얼 > 단일 숫자만 인식하도록 Pytesseract를 구성하려면 어떻게 해야 합니까?

단일 숫자만 인식하도록 Pytesseract를 구성하려면 어떻게 해야 합니까?

Susan Sarandon
풀어 주다: 2024-12-01 10:33:13
원래의
201명이 탐색했습니다.

How Can I Configure Pytesseract to Recognize Only Single Digits?

Pytesseract OCR에 대한 다중 구성 옵션

Pytesseract는 이미지에서 텍스트를 추출하는 데 널리 사용되는 강력한 OCR 도구입니다. 그러나 특정 문자 집합을 인식하는 작업을 수행할 때 문제가 발생할 수 있습니다. 이러한 제한을 극복하기 위해 사용자는 종종 사용자 정의 매개변수를 사용하여 Tesseract를 구성합니다.

한 가지 일반적인 시나리오는 다른 문자를 제외하고 한 자리 숫자를 허용하도록 Tesseract를 구성하는 것입니다. 이는 어떤 경우에는 동일하게 나타날 수 있는 숫자 0과 문자 'O'를 구별할 때 필수적입니다. 이를 달성하기 위해 Tesseract는 그에 따라 조정될 수 있는 여러 구성 옵션을 제공합니다.

psm 및 tessedit_char_whitelist 매개변수 사용

Tesseract 4.0.0a 출시로 사용자는 액세스 권한을 얻습니다. 더 넓은 범위의 페이지 분할 모드(psm 값)로 확장되었습니다. 단일 문자 인식이 주요 목표인 시나리오의 경우 psm을 10으로 설정하는 것이 효과적입니다. 이 매개변수는 Tesseract가 이미지를 단일 문자로 처리하도록 지시합니다.

또한 Tesseract의 인식을 숫자로만 제한하려면 사용자는 tessedit_char_whitelist 매개변수를 활용할 수 있습니다. 0123456789와 같은 문자 허용 목록을 지정하면 Tesseract는 해당 허용 목록 내의 문자만 인식합니다.

샘플 사용법

다음 코드는 psm과 tessedit_char_whitelist를 결합하는 방법을 보여줍니다. 실제 매개변수 설정:

import pytesseract

target = pytesseract.image_to_string(image, lang='eng', boxes=False, \
        config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')
로그인 후 복사

이 예에서 image 변수는 처리할 입력 이미지를 나타내고 lang='eng'은 텍스트가 영어임을 지정합니다. box=False로 설정하면 이 함수는 인식된 문자에 대한 경계 상자를 출력하지 않습니다.

--psm 10 매개변수는 단일 문자 인식이 활용되도록 하고 --oem 3 매개변수는 기본 OCR 엔진을 선택합니다. 마지막으로 -c tessedit_char_whitelist=0123456789 매개변수는 인식을 숫자로만 제한합니다.

이러한 여러 구성 옵션을 이해하고 활용함으로써 사용자는 특정 OCR 요구 사항에 맞게 Pytesseract의 동작을 효과적으로 맞춤화하여 정확하고 정확한 텍스트 추출이 가능합니다.

위 내용은 단일 숫자만 인식하도록 Pytesseract를 구성하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿