단일 숫자 인식에서 \'0\'과 \'O\'를 구별하도록 Pytesseract를 어떻게 구성할 수 있습니까?

Linda Hamilton
풀어 주다: 2024-11-26 06:20:09
원래의
726명이 탐색했습니다.

How Can I Configure Pytesseract to Distinguish Between

Pytesseract OCR 다중 구성 구성

광학 문자 인식(OCR)을 위해 Pytesseract를 활용하는 경우 설정을 최적화하여 성능을 향상시키는 것이 중요합니다. 특정 시나리오에 대한 정확성. 이 문서에서는 OCR이 한 자리 숫자와 문자 'O'를 구별하는 데 어려움을 겪는 특정 문제를 다룹니다.

문제:

Pytesseract가 숫자를 구별할 수 없습니다. 한 자리 숫자에 대해 '-psm 7'로 구성된 경우 0과 문자 'O'

해결책:

이 문제를 해결하기 위해 Tesseract 4.0.0a는 두 가지 주요 구성 옵션을 제공합니다.

  • psm (페이지 분할 모드): Tesseract가 이미지를 텍스트 영역으로 나누는 방법을 지정합니다. 단일 문자 인식의 경우 psm을 10으로 설정해야 합니다.
  • tessedit_char_whitelist: Tesseract가 지정된 문자만 인식하도록 제한합니다. 이 경우 화이트리스트는 숫자로만 제한되어야 합니다(예: "0123456789").

샘플 코드:

다음 코드는 사용 방법을 보여줍니다. 다음 구성 옵션을 함께 사용하세요.

import pytesseract
from PIL import Image

# Load the image
im = Image.open('digits_image.png')

# Multiple configuration options
target = pytesseract.image_to_string(im, config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')
로그인 후 복사

이 구성을 사용하면 Pytesseract는 한 자리 숫자를 'O'로 착각할 가능성을 배제하면서 정확하게 인식할 수 있습니다.

위 내용은 단일 숫자 인식에서 \'0\'과 \'O\'를 구별하도록 Pytesseract를 어떻게 구성할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿