Avec le développement continu de l'ère numérique, un grand nombre de documents papier doivent être numérisés pour faciliter le stockage et la récupération. Afin de convertir efficacement les données, de nombreuses entreprises et particuliers choisissent la technologie OCR (Optical Character Recognition, reconnaissance optique de caractères), qui permet de convertir le texte des documents papier numérisés au format numérique.
PHP, en tant que langage de programmation couramment utilisé, peut également être utilisé pour la reconnaissance OCR et la reconnaissance de texte. Dans cet article, je vais vous présenter comment utiliser PHP pour la reconnaissance OCR et la reconnaissance de texte.
1. Reconnaissance OCR PHP
Pour effectuer la reconnaissance OCR en PHP, nous pouvons utiliser certaines bibliothèques de reconnaissance OCR pour y parvenir. Actuellement, les plus couramment utilisés incluent : Tesseract OCR, OCRopus, etc.
Tesseract OCR est l'un des moteurs OCR (Optical Character Recognition, reconnaissance optique de caractères) gratuits les plus connus. Il a été développé par HP Labs et est désormais géré par Google. Tesseract est disponible pour plusieurs plates-formes (telles que Windows, Mac OS et Linux) et plusieurs langages de programmation (tels que C++, Python et Java).
Ce qui suit est un exemple PHP simple d'utilisation de Tesseract OCR pour reconnaître des images :
// Installez le moteur Tesseract OCR et le package PHP Tesseract OCR
apt-get install tesseract- ocr
composer nécessite thiagoalessio/tesseract_ocr
// Charger l'image
$image = new Imagick('path/to/image');
//Reconnaître le texte dans image
$tesseract = new TesseractOCR();
$tesseract->image($image);
$text = $tesseract->run();
echo $text;// Afficher le texte reconnu
2 . Reconnaissance de texte PHP
Pour effectuer une reconnaissance de texte en PHP, nous pouvons utiliser certaines bibliothèques de reconnaissance de texte pour y parvenir. Actuellement, les plus couramment utilisés incluent : IDA S.E OCR, Nanonets OCR, etc.
Étant donné que différents packages ont des méthodes d'installation et d'utilisation différentes, en prenant Nanonets OCR comme exemple, voici un exemple PHP simple d'utilisation de Nanonets OCR pour identifier le texte dans les images :
// Enregistrez un compte, obtenez la clé API et l'ID du modèle
https://app.nanonets.com/user/register
//Installez le SDK PHP
composer nécessite des nanonets/nanonets- ocr-php
// Obtenez les résultats de reconnaissance de Nanonets OCR
require_once(__DIR__ . '/vendor/autoload.php');
$api_key = 'VOTRE CLÉ API' ;
$model_id = 'VOTRE ID DE MODÈLE';
$nocr = new NanonetsOCRNanonetsOCR($api_key, $model_id);
$result = $nocr->upload('path/to/image');
echo $result ;
//Résultats de l'analyse
$json = json_decode($result, true);
$text = '';
foreach ($json['result' ][0 ]['prediction'] as $line) {
$text .= $line['ocr_text'] . "
";
}
echo $text;
Summary
À travers les deux exemples ci-dessus, nous pouvons voir que l'utilisation de PHP pour la reconnaissance OCR et la reconnaissance de texte est très simple. Il suffit d'installer la bibliothèque correspondante (telle que Tesseract OCREngine, OCRopus, Nanonets OCR, etc.), de charger l'image ou de télécharger l'image, puis d'analyser les résultats. La technologie OCR et la technologie de reconnaissance de texte peuvent nous aider à numériser un grand nombre. des documents papier et améliorer l'efficacité de la gestion. Mais il convient de noter que dans les applications pratiques, nous devons choisir une bibliothèque OCR adaptée à notre projet et la mettre en œuvre en fonction des besoins réels.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!