Mit der kontinuierlichen Weiterentwicklung des digitalen Zeitalters muss eine große Anzahl von Papierdokumenten digitalisiert werden, um die Speicherung und den Abruf zu erleichtern. Um Daten effektiv umzuwandeln, entscheiden sich viele Unternehmen und Einzelpersonen für die OCR-Technologie (Optical Character Recognition, optische Zeichenerkennung), mit der Text in gescannten Papierdokumenten in ein digitales Format umgewandelt werden kann.
PHP kann als häufig verwendete Programmiersprache auch für die OCR-Erkennung und Texterkennung verwendet werden. In diesem Artikel werde ich vorstellen, wie man PHP für die OCR-Erkennung und Texterkennung verwendet.
1. PHP-OCR-Erkennung
Um die OCR-Erkennung in PHP durchzuführen, können wir einige OCR-Erkennungsbibliotheken verwenden. Zu den derzeit am häufigsten verwendeten gehören: Tesseract OCR, OCRopus usw.
Tesseract OCR ist eine der bekanntesten kostenlosen OCR-Engines (Optical Character Recognition, optische Zeichenerkennung). Es wurde von HP Labs entwickelt und wird jetzt von Google gepflegt. Tesseract ist für mehrere Plattformen (wie Windows, Mac OS und Linux) und mehrere Programmiersprachen (wie C++, Python und Java) verfügbar.
Das Folgende ist ein einfaches PHP-Beispiel für die Verwendung von Tesseract OCR zum Erkennen von Bildern:
// Tesseract OCR-Engine und PHP Tesseract OCR-Paket installieren
apt-get install tesseract- ocr
composer erfordert thiagoalessio/tesseract_ocr
// Bild laden
$image = new Imagick('path/to/image');
//Text im Bild erkennen image
$tesseract = new TesseractOCR();
$tesseract->image($image);
$text = $tesseract->run();
echo $text;// Den erkannten Text ausgeben
2 . PHP-Texterkennung
Um eine Texterkennung in PHP durchzuführen, können wir einige Texterkennungsbibliotheken verwenden. Zu den derzeit am häufigsten verwendeten gehören: IDA S.E. OCR, Nanonets OCR usw.
Da verschiedene Pakete unterschiedliche Installationsmethoden und Verwendungsmethoden haben, ist das Folgende am Beispiel von Nanonets OCR ein einfaches PHP-Beispiel für die Verwendung von Nanonets OCR zur Identifizierung von Text in Bildern:
// Konto registrieren, API-Schlüssel und Modell-ID erhalten
https://app.nanonets.com/user/register
// PHP SDK installieren
Composer erfordern Nanonets/Nanonets- ocr-php
// Erhalten Sie Erkennungsergebnisse von Nanonets OCR
require_once(__DIR__ . '/vendor/autoload.php');
$api_key = 'YOUR API KEY' ;
$model_id = 'IHRE MODELL-ID';
$nocr = new NanonetsOCRNanonetsOCR($api_key, $model_id);
$result = $nocr->upload('path/to/image');
echo $result ;
//Analyseergebnisse
$json = json_decode($result, true);
$text = '';
foreach ($json['result' ][0 ]['prediction'] as $line) {
$text .= $line['ocr_text'] . "
";
}
echo $text;
Zusammenfassung
Anhand der beiden obigen Beispiele können wir sehen, dass PHP für die OCR-Erkennung und Texterkennung verwendet wird ist sehr einfach. Installieren Sie einfach die entsprechende Bibliothek (z. B. Tesseract OCREngine, OCRopus, Nanonets OCR usw.), laden Sie das Bild oder laden Sie es hoch und analysieren Sie dann die Ergebnisse. OCR-Technologie und Texterkennungstechnologie können uns dabei helfen, eine große Anzahl zu digitalisieren Es ist jedoch zu beachten, dass wir in der Praxis eine für unser Projekt geeignete OCR-Bibliothek auswählen und diese entsprechend den tatsächlichen Anforderungen implementieren müssen.
Das obige ist der detaillierte Inhalt vonWie verwende ich PHP für die OCR-Erkennung und Texterkennung?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!