OCR (Optical Character Recognition, Optical Character Recognition) ialah teknologi yang menukar teks dalam imej kepada teks yang boleh dibaca komputer. Ia membantu anda menukar teks dalam imej kepada teks boleh diedit. Dalam artikel ini, kami akan memperkenalkan cara menggunakan PHP dan enjin OCR Tesseract untuk pemprosesan OCR.
Mula-mula, kita perlu memasang enjin Tesseract OCR. Tesseract ialah enjin OCR sumber terbuka yang dibangunkan oleh Google. Ia mengiktiraf pelbagai bahasa teks dan berfungsi pada banyak platform yang berbeza.
Apabila memasang Tesseract pada sistem Linux, anda boleh menggunakan arahan berikut:
sudo apt-get install tesseract-ocr
Pada sistem Windows, anda boleh memasangnya dari tapak web rasmi Tesseract (https://github.com/ tesseract-ocr/tesseract ) Muat turun pemasang dan pasangnya.
Seterusnya, kita perlu memasang sambungan PHP untuk menggunakan Tesseract. PHP mempunyai sambungan OCR yang dipanggil "tesseract" yang membolehkan kami menggunakan enjin Tesseract dalam PHP.
Pada sistem Linux, anda boleh memasangnya menggunakan arahan berikut:
sudo apt-get install php-tesseract
Pada sistem Windows, anda boleh memuat turun sambungan daripada PECL (http://pecl.php.net/package/ tesseract) dan Pasang. Baris berikut boleh ditambah pada fail php.ini untuk membolehkan sambungan:
extension=tesseract.so
Seterusnya, kami akan menggunakan PHP dan Tesseract untuk mengenal pasti teks dalam teks imej.
Pertama, kita perlu menyediakan gambar yang mengandungi teks yang perlu dikenali. Katakan kami mempunyai imej bernama "example.png", kami akan menggunakan kod berikut untuk mengenal pasti teks di dalamnya:
<?php function recognize_text($filename) { $tesseract = new TesseractOCR($filename); $tesseract->setLanguage('eng'); $tesseract->setTempDir('/tmp'); return $tesseract->recognize(); } $filename = 'example.png'; $text = recognize_text($filename); echo $text; ?>
Dalam kod di atas, kami telah menggunakan kelas TesseractOCR untuk mengenal pasti teks dalam imej . Pembina kelas ini memerlukan parameter nama fail, iaitu nama fail imej yang perlu diproses OCR.
Kaedah setLanguage() menentukan bahasa pengecaman yang akan digunakan, di sini kami menentukan bahasa Inggeris. Kaedah setTempDir() menetapkan direktori yang digunakan untuk menyimpan fail sementara semasa proses pengecaman. Akhir sekali, kami memanggil kaedah recog() untuk melaksanakan pemprosesan OCR dan mengembalikan atau mengeluarkan hasilnya.
Dalam artikel ini, kami mempelajari cara melakukan pemprosesan OCR menggunakan PHP dan Tesseract. Kami mula-mula memasang enjin Tesseract OCR dan sambungan tesseract, dan kemudian menggunakan kod PHP untuk mengecam teks dalam imej. Menggunakan teknologi OCR membantu kami mengekstrak teks boleh diedit daripada imej, yang boleh digunakan pada pelbagai senario, seperti mengimbas dokumen, arkib digital, dsb.
Atas ialah kandungan terperinci Bagaimana untuk melakukan pemprosesan OCR dengan PHP dan Tesseract. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!