> 백엔드 개발 > PHP 튜토리얼 > PHP와 Tesseract를 사용하여 OCR 이미지 텍스트 인식 기능 구현

PHP와 Tesseract를 사용하여 OCR 이미지 텍스트 인식 기능 구현

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
풀어 주다: 2023-06-25 10:12:02
원래의
3195명이 탐색했습니다.

인공지능과 컴퓨터 비전 기술의 급속한 발전으로 광학 문자 인식 시스템인 OCR(광학 문자 인식)은 점점 더 성숙해졌으며 많은 응용 시나리오에서 필요한 기능이 되었습니다. OCR 시스템은 이미지 속 텍스트를 인식할 수 있어 이미지 속 정보를 디지털 방식으로 처리하고 지능적으로 분석할 수 있습니다. 이 기사에서는 PHP와 Tesseract를 사용하여 OCR 이미지 텍스트 인식 기능을 구현하는 방법을 소개합니다.

1. Tesseract 소개

Tesseract는 HP Labs에서 개발하고 오픈 소스 커뮤니티에 기여한 오픈 소스 OCR 엔진입니다. 다국어를 지원하며 인식률이 높고 정확도가 높습니다. Tesseract의 최신 버전은 4.1.1입니다.

2. 환경 구성 및 Tesseract 설치

  1. PHP 설치

먼저 PHP를 로컬 또는 서버에 설치해야 합니다. XAMPP 또는 WAMP 환경이 이 시스템에 이미 설치되어 있는 경우 xampp 또는 wamp와 함께 제공되는 PHP를 직접 사용할 수 있습니다. 그렇지 않은 경우 수동으로 설치해야 합니다.

  1. Tesseract 설치

공식 웹사이트 https://github.com/tesseract-ocr/tesseract에서 Tesseract를 다운로드하세요. 사용 중인 운영 체제에 따라 다운로드를 선택하세요. 다운로드가 완료된 후 설치하세요. 중국어를 사용해야 하는 경우 해당 언어 팩도 다운로드해야 합니다.

명령줄 창에서 tesseract --version을 실행하여 Tesseract가 성공적으로 설치되었는지 확인하세요.

3. PHP와 Tesseract를 사용하여 OCR 이미지 텍스트 인식 기능 구현

  1. PHP 설치 및 Tesseract 설치

먼저 PHP를 설치하고 Tesseract를 설치해야 합니다.

2. 이미지 경로를 전달하고 명령 인식 실행

exec 함수(또는 shell_exec() 또는 system())를 사용하여 이미지의 텍스트를 인식하는 명령을 실행합니다. 전달된 매개변수는 Tesseract에 필요한 명령 매개변수입니다. 여기서 "chi_sim"은 인식할 언어이며 필요에 따라 수정할 수 있습니다.

$command = "tesseract ". $image_path ." " .$output_path." -l chi_sim";
//명령 실행
exec($command);

  1. 인식된 결과 가져오기

file_get_contents( ) 함수는 최종 인식 결과를 얻어서 반환합니다.

if (file_exists($output_path.'.txt')) {

    $content = file_get_contents($output_path.'.txt');
    //返回识别结果
    return $content;
로그인 후 복사

}

4.Test

다음은 OCR 이미지 텍스트 인식 기능이 제대로 작동하는지 테스트하는 간단한 예입니다.

(1) 먼저 사진을 준비해야 합니다. 여기서는 중국어 텍스트가 포함된 사진을 사용합니다.

(2) 인식할 이미지 경로와 출력 결과 경로를 함수에 전달합니다. 코드는 다음과 같습니다.

function ocr($image_path, $output_path) {

$command = "tesseract ". $image_path ." " .$output_path." -l chi_sim"; 
//执行命令
exec($command);

if (file_exists($output_path.'.txt')) {
    $content = file_get_contents($output_path.'.txt');
    //返回识别结果
    return $content;
}
로그인 후 복사

}

(3) 함수를 실행하고 결과를 출력합니다. 코드는 다음과 같습니다.

$output_path = './test'

$result = ocr($image_path,$output_path);

echo $result;

(4) 프로그램을 실행하면 다음과 같은 결과가 출력됩니다.

"중국어 텍스트가 포함된 테스트 사진입니다."

5. 요약

이 내용을 통해 기사를 통해 독자는 PHP와 Tesseract를 사용하여 OCR 이미지 텍스트 인식 기능을 구현하는 방법을 이해할 수 있습니다. 이미지 텍스트 인식이 필요한 일부 애플리케이션 시나리오의 경우 빠르고 정확한 텍스트 추출이 가능하여 작업 효율성과 정확성이 향상됩니다. 물론 다양한 애플리케이션 시나리오에서 실제로 더 나은 결과를 얻으려면 실제 요구 사항에 따라 코드를 수정하고 최적화해야 합니다.

위 내용은 PHP와 Tesseract를 사용하여 OCR 이미지 텍스트 인식 기능 구현의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿