Mit der rasanten Entwicklung der künstlichen Intelligenz und der Computer-Vision-Technologie ist OCR (Optical Character Recognition), das optische Zeichenerkennungssystem, immer ausgereifter geworden und in vielen Anwendungsszenarien zu einer notwendigen Funktion geworden. Das OCR-System kann Text in Bildern erkennen, sodass die Informationen in den Bildern digital verarbeitet und intelligent analysiert werden können. In diesem Artikel wird erläutert, wie Sie mit PHP und Tesseract die OCR-Bildtexterkennungsfunktion implementieren.
1. Einführung in Tesseract
Tesseract ist eine Open-Source-OCR-Engine, die von HP Labs entwickelt und zur Open-Source-Community beigetragen hat. Es unterstützt mehrere Sprachen, verfügt über eine hohe Erkennung und hohe Genauigkeit. Die neueste Version von Tesseract ist 4.1.1.
2. Konfigurieren Sie die Umgebung und installieren Sie Tesseract
Zuerst müssen Sie PHP lokal oder auf dem Server installieren. Wenn die XAMPP- oder WAMP-Umgebung bereits auf diesem Computer installiert ist, können Sie das mit xampp oder wamp gelieferte PHP direkt verwenden. Andernfalls müssen Sie es manuell installieren.
Laden Sie Tesseract von der offiziellen Website https://github.com/tesseract-ocr/tesseract herunter. Wählen Sie den Download entsprechend dem von Ihnen verwendeten Betriebssystem aus. Installieren Sie es, nachdem der Download abgeschlossen ist. Wenn Sie Chinesisch verwenden müssen, müssen Sie auch das entsprechende Sprachpaket herunterladen.
Führen Sie tesseract --version im Befehlszeilenfenster aus, um zu überprüfen, ob Tesseract erfolgreich installiert wurde.
3. Verwenden Sie PHP und Tesseract, um die OCR-Bildtexterkennungsfunktion zu implementieren
Zuerst müssen Sie PHP installieren und Tesseract installieren.
2. Übergeben Sie den Bildpfad und führen Sie die Befehlserkennung aus.
Verwenden Sie die exec-Funktion (oder shell_exec() oder system()), um den Befehl auszuführen, um den Text im Bild zu erkennen. Die übergebenen Parameter sind die von Tesseract benötigten Befehlsparameter, wobei „chi_sim“ die zu erkennende Sprache ist und bei Bedarf geändert werden kann.
$command = „tesseract „. $image_path.“ „ .$output_path.“ -l chi_sim“; )-Funktion erhält das endgültige Erkennungsergebnis und gibt es zurück.
if (file_exists($output_path.'.txt')) {
$content = file_get_contents($output_path.'.txt'); //返回识别结果 return $content;
Das Folgende ist ein einfaches Beispiel, um zu testen, ob die OCR-Bildtexterkennungsfunktion ordnungsgemäß funktioniert.
(1) Zuerst müssen Sie ein Bild vorbereiten. Hier verwenden wir ein Bild mit chinesischem Text.
(2) Übergeben Sie den zu erkennenden Bildpfad und den Ausgabeergebnispfad in die Funktion. Der Code lautet wie folgt:
function ocr($image_path, $output_path) {
$command = "tesseract ". $image_path ." " .$output_path." -l chi_sim"; //执行命令 exec($command); if (file_exists($output_path.'.txt')) { $content = file_get_contents($output_path.'.txt'); //返回识别结果 return $content; }
}
(3) Rufen Sie auf Funktion und Ausgabe des Ergebnisses. Der Code lautet wie folgt:
$image_path = './test.jpg';
$output_path = './test';$result = ocr($image_path,$output_path);
echo $result;
(4) Führen Sie das Programm aus. Wenn alles gut geht, werden die folgenden Ergebnisse ausgegeben:
„Dies ist ein Testbild mit chinesischem Text
5. Zusammenfassung
Durch die Einführung.“ In diesem Artikel können Leser verstehen, wie PHP und Tesseract zur Implementierung der OCR-Bildtexterkennungsfunktion verwendet werden. Für einige Anwendungsszenarien, die eine Bildtexterkennung erfordern, kann eine schnelle und genaue Textextraktion erreicht werden, wodurch die Arbeitseffizienz und -genauigkeit verbessert wird. Natürlich müssen wir in verschiedenen Anwendungsszenarien den Code entsprechend den tatsächlichen Anforderungen ändern und optimieren, um wirklich bessere Ergebnisse zu erzielen.
Das obige ist der detaillierte Inhalt vonVerwendung von PHP und Tesseract zur Implementierung der OCR-Bildtexterkennungsfunktion. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!