Mit dem Aufkommen des digitalen Zeitalters müssen viele Unternehmen und Einzelpersonen Papierdokumente digitalisieren. Die OCR-Erkennungstechnologie (Optical Character Recognition, optische Zeichenerkennung) ist eine der effektivsten Methoden zur Lösung dieses Problems. PHP stellt als beliebte serverseitige Sprache auch einige Bibliotheken und Tools für die OCR-Erkennung bereit. In diesem Artikel werden mehrere OCR-Erkennungstechnologien in PHP vorgestellt, um die am besten geeignete Lösung auszuwählen.
1. tesseract-ocr
tesseract-ocr ist eine beliebte Open-Source-OCR-Engine-Bibliothek, die in C++ geschrieben wurde. PHP bietet Integration mit tesseract-ocr. Bilder in PDF, JPEG, GIF, PNG und anderen Formaten können über php-ext-tesseract erkannt werden. Das größte Merkmal von tesseract-ocr ist, dass es für mehrere Sprachen konzipiert ist und Texte in den meisten Sprachen der Welt erkennen kann.
Verwendung:
<?php require_once __DIR__.'/vendor/autoload.php'; use thiagoalessioTesseractOCRTesseractOCR; $result = (new TesseractOCR('example.png')) ->run(); echo $result; ?>
2. OCRopus
OCRopus ist eine Reihe von OCR-Tools und -Bibliotheken und eine beliebte OCR-Engine basierend. OCRopus kann PHP-Bindungsoperationen verwenden. Es unterstützt nicht nur die Texterkennung, sondern übernimmt auch umfassende OCR-Verarbeitungsaufgaben wie Dokumentklassifizierung, Segmentierung und Schriftsatz.
Verwendung:
<?php $image = new Imagick(); $image->readImage('example.png'); $image->setImageFormat('tif'); $image->thresholdImage(127); //图像二值化 $data = $image->getImagesBlob(); $ocr = new esseractOCR($data); echo $ocr->run(); ?>
3. Google Cloud Vision OCR
Google Cloud Vision API ist eine Reihe von Bildverarbeitungstools, die OCR-Dienste integrieren . Diese API bietet Computer-Vision-Funktionen und Bilderkennung. Google Cloud Vision OCR kann uns dabei helfen, Text und Zeichen in Bildern zu identifizieren. Bitte beachten Sie, dass die Nutzung dieses Dienstes die Registrierung eines Google-Kontos und den Erhalt eines API-Schlüssels erfordert und die Anzahl der Nutzungen in Rechnung gestellt wird.
Verwendung:
<?php require_once __DIR__ . '/vendor/autoload.php'; use GoogleCloudVisionV1ImageAnnotatorClient; $imageAnnotator = new ImageAnnotatorClient(); try { # 图像文件的本地路径或者 URL 地址,即待识别的图像文件路径 $image = file_get_contents('https://example.com/image.jpg'); # 构建图像标注请求 $response = $imageAnnotator->documentTextDetection($image); # 输出结果 foreach ($response->getTextAnnotations() as $text) { printf('%s' . PHP_EOL, $text->getDescription()); } } catch (Exception $exception) { echo $exception->getMessage(); } ?>
Die oben genannten sind drei beliebte OCR-Technologien in PHP. Selbstverständlich können wir auch andere Bibliotheken oder APIs zur OCR-Bilderkennung nutzen. Jede dieser Technologien hat ihre Vor- und Nachteile und muss je nach Bedarf ausgewählt werden. Egal für welche Methode Sie sich entscheiden, sie können uns dabei helfen, Papierdokumente schnell und genau zu digitalisieren, die Arbeitseffizienz zu verbessern, Kosten zu senken und einen echten Mehrwert für Unternehmen und Privatpersonen zu schaffen.
Das obige ist der detaillierte Inhalt vonLeitfaden zur OCR-Erkennungstechnologie in PHP. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!