Verwendung von PHP und Tesseract zur Implementierung der OCR-Bildtexterkennungsfunktion

WBOY
Freigeben: 2023-06-25 10:12:02
Original
3064 Leute haben es durchsucht

Mit der rasanten Entwicklung der künstlichen Intelligenz und der Computer-Vision-Technologie ist OCR (Optical Character Recognition), das optische Zeichenerkennungssystem, immer ausgereifter geworden und in vielen Anwendungsszenarien zu einer notwendigen Funktion geworden. Das OCR-System kann Text in Bildern erkennen, sodass die Informationen in den Bildern digital verarbeitet und intelligent analysiert werden können. In diesem Artikel wird erläutert, wie Sie mit PHP und Tesseract die OCR-Bildtexterkennungsfunktion implementieren.

1. Einführung in Tesseract

Tesseract ist eine Open-Source-OCR-Engine, die von HP Labs entwickelt und zur Open-Source-Community beigetragen hat. Es unterstützt mehrere Sprachen, verfügt über eine hohe Erkennung und hohe Genauigkeit. Die neueste Version von Tesseract ist 4.1.1.

2. Konfigurieren Sie die Umgebung und installieren Sie Tesseract

  1. PHP installieren

Zuerst müssen Sie PHP lokal oder auf dem Server installieren. Wenn die XAMPP- oder WAMP-Umgebung bereits auf diesem Computer installiert ist, können Sie das mit xampp oder wamp gelieferte PHP direkt verwenden. Andernfalls müssen Sie es manuell installieren.

  1. Tesseract installieren

Laden Sie Tesseract von der offiziellen Website https://github.com/tesseract-ocr/tesseract herunter. Wählen Sie den Download entsprechend dem von Ihnen verwendeten Betriebssystem aus. Installieren Sie es, nachdem der Download abgeschlossen ist. Wenn Sie Chinesisch verwenden müssen, müssen Sie auch das entsprechende Sprachpaket herunterladen.

Führen Sie tesseract --version im Befehlszeilenfenster aus, um zu überprüfen, ob Tesseract erfolgreich installiert wurde.

3. Verwenden Sie PHP und Tesseract, um die OCR-Bildtexterkennungsfunktion zu implementieren

  1. Installieren Sie PHP und installieren Sie Tesseract

Zuerst müssen Sie PHP installieren und Tesseract installieren.

2. Übergeben Sie den Bildpfad und führen Sie die Befehlserkennung aus.

Verwenden Sie die exec-Funktion (oder shell_exec() oder system()), um den Befehl auszuführen, um den Text im Bild zu erkennen. Die übergebenen Parameter sind die von Tesseract benötigten Befehlsparameter, wobei „chi_sim“ die zu erkennende Sprache ist und bei Bedarf geändert werden kann.

$command = „tesseract „. $image_path.“ „ .$output_path.“ -l chi_sim“; )-Funktion erhält das endgültige Erkennungsergebnis und gibt es zurück.

if (file_exists($output_path.'.txt')) {

    $content = file_get_contents($output_path.'.txt');
    //返回识别结果
    return $content;
Nach dem Login kopieren
    }
  1. 4. Test

Das Folgende ist ein einfaches Beispiel, um zu testen, ob die OCR-Bildtexterkennungsfunktion ordnungsgemäß funktioniert.

(1) Zuerst müssen Sie ein Bild vorbereiten. Hier verwenden wir ein Bild mit chinesischem Text.

(2) Übergeben Sie den zu erkennenden Bildpfad und den Ausgabeergebnispfad in die Funktion. Der Code lautet wie folgt:

function ocr($image_path, $output_path) {

$command = "tesseract ". $image_path ." " .$output_path." -l chi_sim"; 
//执行命令
exec($command);

if (file_exists($output_path.'.txt')) {
    $content = file_get_contents($output_path.'.txt');
    //返回识别结果
    return $content;
}
Nach dem Login kopieren

}

(3) Rufen Sie auf Funktion und Ausgabe des Ergebnisses. Der Code lautet wie folgt:

$image_path = './test.jpg';

$output_path = './test';

$result = ocr($image_path,$output_path);

echo $result;

(4) Führen Sie das Programm aus. Wenn alles gut geht, werden die folgenden Ergebnisse ausgegeben:

„Dies ist ein Testbild mit chinesischem Text

5. Zusammenfassung

Durch die Einführung.“ In diesem Artikel können Leser verstehen, wie PHP und Tesseract zur Implementierung der OCR-Bildtexterkennungsfunktion verwendet werden. Für einige Anwendungsszenarien, die eine Bildtexterkennung erfordern, kann eine schnelle und genaue Textextraktion erreicht werden, wodurch die Arbeitseffizienz und -genauigkeit verbessert wird. Natürlich müssen wir in verschiedenen Anwendungsszenarien den Code entsprechend den tatsächlichen Anforderungen ändern und optimieren, um wirklich bessere Ergebnisse zu erzielen.

Das obige ist der detaillierte Inhalt vonVerwendung von PHP und Tesseract zur Implementierung der OCR-Bildtexterkennungsfunktion. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!