Bagaimana untuk melakukan pemprosesan OCR dengan PHP dan Tesseract

王林
Lepaskan: 2023-06-21 13:38:02
asal
1972 orang telah melayarinya

OCR (Optical Character Recognition, Optical Character Recognition) ialah teknologi yang menukar teks dalam imej kepada teks yang boleh dibaca komputer. Ia membantu anda menukar teks dalam imej kepada teks boleh diedit. Dalam artikel ini, kami akan memperkenalkan cara menggunakan PHP dan enjin OCR Tesseract untuk pemprosesan OCR.

  1. Pasang Tesseract

Mula-mula, kita perlu memasang enjin Tesseract OCR. Tesseract ialah enjin OCR sumber terbuka yang dibangunkan oleh Google. Ia mengiktiraf pelbagai bahasa teks dan berfungsi pada banyak platform yang berbeza.

Apabila memasang Tesseract pada sistem Linux, anda boleh menggunakan arahan berikut:

sudo apt-get install tesseract-ocr
Salin selepas log masuk

Pada sistem Windows, anda boleh memasangnya dari tapak web rasmi Tesseract (https://github.com/ tesseract-ocr/tesseract ) Muat turun pemasang dan pasangnya.

  1. Pasang sambungan PHP

Seterusnya, kita perlu memasang sambungan PHP untuk menggunakan Tesseract. PHP mempunyai sambungan OCR yang dipanggil "tesseract" yang membolehkan kami menggunakan enjin Tesseract dalam PHP.

Pada sistem Linux, anda boleh memasangnya menggunakan arahan berikut:

sudo apt-get install php-tesseract
Salin selepas log masuk

Pada sistem Windows, anda boleh memuat turun sambungan daripada PECL (http://pecl.php.net/package/ tesseract) dan Pasang. Baris berikut boleh ditambah pada fail php.ini untuk membolehkan sambungan:

extension=tesseract.so
Salin selepas log masuk
  1. Mengenal teks

Seterusnya, kami akan menggunakan PHP dan Tesseract untuk mengenal pasti teks dalam teks imej.

Pertama, kita perlu menyediakan gambar yang mengandungi teks yang perlu dikenali. Katakan kami mempunyai imej bernama "example.png", kami akan menggunakan kod berikut untuk mengenal pasti teks di dalamnya:

<?php
    function recognize_text($filename) {
        $tesseract = new TesseractOCR($filename);
        $tesseract->setLanguage('eng');
        $tesseract->setTempDir('/tmp');
        return $tesseract->recognize();
    }

    $filename = 'example.png';
    $text = recognize_text($filename);
    echo $text;
?>
Salin selepas log masuk

Dalam kod di atas, kami telah menggunakan kelas TesseractOCR untuk mengenal pasti teks dalam imej . Pembina kelas ini memerlukan parameter nama fail, iaitu nama fail imej yang perlu diproses OCR.

Kaedah setLanguage() menentukan bahasa pengecaman yang akan digunakan, di sini kami menentukan bahasa Inggeris. Kaedah setTempDir() menetapkan direktori yang digunakan untuk menyimpan fail sementara semasa proses pengecaman. Akhir sekali, kami memanggil kaedah recog() untuk melaksanakan pemprosesan OCR dan mengembalikan atau mengeluarkan hasilnya.

  1. Kesimpulan

Dalam artikel ini, kami mempelajari cara melakukan pemprosesan OCR menggunakan PHP dan Tesseract. Kami mula-mula memasang enjin Tesseract OCR dan sambungan tesseract, dan kemudian menggunakan kod PHP untuk mengecam teks dalam imej. Menggunakan teknologi OCR membantu kami mengekstrak teks boleh diedit daripada imej, yang boleh digunakan pada pelbagai senario, seperti mengimbas dokumen, arkib digital, dsb.

Atas ialah kandungan terperinci Bagaimana untuk melakukan pemprosesan OCR dengan PHP dan Tesseract. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan