Comment effectuer un traitement OCR avec PHP et Tesseract-tutoriel php-php.cn

Comment effectuer un traitement OCR avec PHP et Tesseract

王林

Libérer： 2023-06-21 13:38:02

original

2277 Les gens l'ont consulté

OCR (Optical Character Recognition, Optical Character Recognition) est une technologie qui convertit le texte des images en texte lisible par ordinateur. Il vous aide à convertir le texte des images en texte modifiable. Dans cet article, nous présenterons comment utiliser PHP et le moteur OCR Tesseract pour le traitement OCR.

Installer Tesseract

Tout d'abord, nous devons installer le moteur Tesseract OCR. Tesseract est un moteur OCR open source développé par Google. Il reconnaît plusieurs langues de texte et fonctionne sur de nombreuses plateformes différentes.

Lors de l'installation de Tesseract sur un système Linux, vous pouvez utiliser la commande suivante :

sudo apt-get install tesseract-ocr

Copier après la connexion

Sur un système Windows, vous pouvez télécharger le programme d'installation depuis le site officiel de Tesseract (https://github.com/tesseract-ocr/tesseract) et installez-le.

Installer l'extension PHP

Ensuite, nous devons installer l'extension PHP pour utiliser Tesseract. PHP possède une extension OCR appelée « tesseract » qui nous permet d'utiliser le moteur Tesseract en PHP.

Sur les systèmes Linux, vous pouvez l'installer à l'aide de la commande suivante :

sudo apt-get install php-tesseract

Copier après la connexion

Sur les systèmes Windows, vous pouvez télécharger l'extension depuis PECL (http://pecl.php.net/package/tesseract) et l'installer. La ligne suivante peut être ajoutée au fichier php.ini pour activer l'extension :

extension=tesseract.so

Copier après la connexion

Recognize text

Ensuite, nous utiliserons PHP et Tesseract pour reconnaître le texte dans une image.

Tout d'abord, nous devons préparer une image contenant le texte qui doit être reconnu. Supposons que nous ayons une image nommée "example.png", nous utiliserons le code suivant pour identifier le texte qu'elle contient :

<?php
    function recognize_text($filename) {
        $tesseract = new TesseractOCR($filename);
        $tesseract->setLanguage('eng');
        $tesseract->setTempDir('/tmp');
        return $tesseract->recognize();
    }

    $filename = 'example.png';
    $text = recognize_text($filename);
    echo $text;
?>

Copier après la connexion

Dans le code ci-dessus, nous avons utilisé la classe TesseractOCR pour identifier le texte dans l'image. Le constructeur de cette classe nécessite un paramètre de nom de fichier, qui est le nom de fichier de l'image qui doit être traitée par OCR.

La méthode setLanguage() précise la langue de reconnaissance à utiliser, ici nous précisons l'anglais. La méthode setTempDir() définit le répertoire utilisé pour stocker les fichiers temporaires pendant le processus de reconnaissance. Enfin, nous appelons la méthode reconnaître() pour effectuer le traitement OCR et renvoyer ou afficher les résultats.

Conclusion

Dans cet article, nous avons appris comment effectuer un traitement OCR à l'aide de PHP et Tesseract. Nous avons d'abord installé le moteur Tesseract OCR et l'extension tesseract, puis avons utilisé du code PHP pour reconnaître le texte d'une image. L'utilisation de la technologie OCR nous aide à extraire du texte modifiable à partir d'images, qui peut être appliqué à divers scénarios, tels que la numérisation de documents, les archives numériques, etc.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!