인공지능과 컴퓨터 비전 기술의 급속한 발전으로 광학 문자 인식 시스템인 OCR(광학 문자 인식)은 점점 더 성숙해졌으며 많은 응용 시나리오에서 필요한 기능이 되었습니다. OCR 시스템은 이미지 속 텍스트를 인식할 수 있어 이미지 속 정보를 디지털 방식으로 처리하고 지능적으로 분석할 수 있습니다. 이 기사에서는 PHP와 Tesseract를 사용하여 OCR 이미지 텍스트 인식 기능을 구현하는 방법을 소개합니다.
1. Tesseract 소개
Tesseract는 HP Labs에서 개발하고 오픈 소스 커뮤니티에 기여한 오픈 소스 OCR 엔진입니다. 다국어를 지원하며 인식률이 높고 정확도가 높습니다. Tesseract의 최신 버전은 4.1.1입니다.
2. 환경 구성 및 Tesseract 설치
먼저 PHP를 로컬 또는 서버에 설치해야 합니다. XAMPP 또는 WAMP 환경이 이 시스템에 이미 설치되어 있는 경우 xampp 또는 wamp와 함께 제공되는 PHP를 직접 사용할 수 있습니다. 그렇지 않은 경우 수동으로 설치해야 합니다.
공식 웹사이트 https://github.com/tesseract-ocr/tesseract에서 Tesseract를 다운로드하세요. 사용 중인 운영 체제에 따라 다운로드를 선택하세요. 다운로드가 완료된 후 설치하세요. 중국어를 사용해야 하는 경우 해당 언어 팩도 다운로드해야 합니다.
명령줄 창에서 tesseract --version을 실행하여 Tesseract가 성공적으로 설치되었는지 확인하세요.
3. PHP와 Tesseract를 사용하여 OCR 이미지 텍스트 인식 기능 구현
먼저 PHP를 설치하고 Tesseract를 설치해야 합니다.
2. 이미지 경로를 전달하고 명령 인식 실행
exec 함수(또는 shell_exec() 또는 system())를 사용하여 이미지의 텍스트를 인식하는 명령을 실행합니다. 전달된 매개변수는 Tesseract에 필요한 명령 매개변수입니다. 여기서 "chi_sim"은 인식할 언어이며 필요에 따라 수정할 수 있습니다.
$command = "tesseract ". $image_path ." " .$output_path." -l chi_sim";
//명령 실행
exec($command);
file_get_contents( ) 함수는 최종 인식 결과를 얻어서 반환합니다.
if (file_exists($output_path.'.txt')) {
$content = file_get_contents($output_path.'.txt'); //返回识别结果 return $content;
}
4.Test
다음은 OCR 이미지 텍스트 인식 기능이 제대로 작동하는지 테스트하는 간단한 예입니다.
(1) 먼저 사진을 준비해야 합니다. 여기서는 중국어 텍스트가 포함된 사진을 사용합니다.
(2) 인식할 이미지 경로와 출력 결과 경로를 함수에 전달합니다. 코드는 다음과 같습니다.
function ocr($image_path, $output_path) {
$command = "tesseract ". $image_path ." " .$output_path." -l chi_sim"; //执行命令 exec($command); if (file_exists($output_path.'.txt')) { $content = file_get_contents($output_path.'.txt'); //返回识别结果 return $content; }
}
(3) 함수를 실행하고 결과를 출력합니다. 코드는 다음과 같습니다.
$output_path = './test'$result = ocr($image_path,$output_path);
echo $result;
(4) 프로그램을 실행하면 다음과 같은 결과가 출력됩니다.
"중국어 텍스트가 포함된 테스트 사진입니다."
5. 요약
이 내용을 통해 기사를 통해 독자는 PHP와 Tesseract를 사용하여 OCR 이미지 텍스트 인식 기능을 구현하는 방법을 이해할 수 있습니다. 이미지 텍스트 인식이 필요한 일부 애플리케이션 시나리오의 경우 빠르고 정확한 텍스트 추출이 가능하여 작업 효율성과 정확성이 향상됩니다. 물론 다양한 애플리케이션 시나리오에서 실제로 더 나은 결과를 얻으려면 실제 요구 사항에 따라 코드를 수정하고 최적화해야 합니다.
위 내용은 PHP와 Tesseract를 사용하여 OCR 이미지 텍스트 인식 기능 구현의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!