Dengan perkembangan berterusan era digital, sejumlah besar dokumen kertas perlu didigitalkan untuk memudahkan penyimpanan dan mendapatkan semula. Untuk menukar data dengan berkesan, banyak syarikat dan individu memilih teknologi OCR (Pengecaman Aksara Optik, pengecaman aksara optik), yang boleh menukar teks dalam dokumen kertas yang diimbas ke dalam format digital.
Sebagai bahasa pengaturcaraan yang biasa digunakan, PHP juga boleh digunakan untuk pengecaman OCR dan pengecaman teks. Dalam artikel ini, saya akan memperkenalkan cara menggunakan PHP untuk pengecaman OCR dan pengecaman teks.
1. Pengecaman OCR PHP
Untuk melaksanakan pengecaman OCR dalam PHP, kami boleh menggunakan beberapa pustaka pengecaman OCR untuk mencapainya. Pada masa ini yang lebih biasa digunakan termasuk: Tesseract OCR, OCRopus, dsb.
Tesseract OCR ialah salah satu enjin OCR (Optical Character Recognition, optical character recognition) percuma yang paling terkenal. Ia dibangunkan oleh HP Labs dan kini diselenggara oleh Google. Tesseract tersedia untuk berbilang platform (seperti Windows, Mac OS dan Linux) dan berbilang bahasa pengaturcaraan (seperti C++, Python dan Java).
Berikut ialah contoh PHP mudah menggunakan Tesseract OCR untuk mengecam imej:
// Pasang pakej Tesseract OCR Engine dan PHP Tesseract OCR
apt-get install tesseract-ocr
komposer memerlukan thiagoalessio/tesseract_ocr
// Muatkan imej
$image = new Imagick('path/to/image');
//Kecam teks dalam imej
$ tesseract = new TesseractOCR();
$tesseract->image($image);
$text = $tesseract->run();
echo $text;// Output Teks pengecaman
2. Pengecaman teks PHP
Untuk melaksanakan pengecaman teks dalam PHP, kita boleh menggunakan beberapa perpustakaan pengecaman teks untuk mencapainya. Pada masa ini, yang lebih biasa digunakan termasuk: IDA S.E. OCR, Nanonets OCR, dll.
Memandangkan pakej berbeza mempunyai kaedah pemasangan dan kaedah penggunaan yang berbeza, mengambil Nanonets OCR sebagai contoh, berikut ialah contoh PHP mudah menggunakan Nanonets OCR untuk mengecam teks dalam imej:
// Daftar akaun, dapatkan Kunci API dan ID Model
https://app.nanonets.com/user/register
//Pasang PHP SDK
komposer memerlukan nanonets/nanonets-ocr-php
// Dapatkan hasil pengiktirafan daripada Nanonets OCR
require_once(__DIR__ . '/vendor/autoload.php');
$api_key = 'YOUR KEY API';
$model_id = 'ID MODEL ANDA';
$nocr = NanonetsOCRNanonetsOCR baharu($api_key, $model_id);
$result = $nocr->upload('path / to/image');
echo $result;
//Hasil analisis
$json = json_decode($result, true);
$text = '';
foreach ($json['result'][0]['prediction'] sebagai $line) {
$text .= $line['ocr_text'] . "
";
}
echo $text;
Ringkasan
Melalui dua contoh di atas, kita dapat melihat bahawa menggunakan PHP untuk pengecaman OCR dan pengecaman teks adalah Sangat mudah. Hanya pasang pustaka yang sepadan (seperti Tesseract OCREngine, OCRopus, Nanonets OCR, dll.), muatkan imej atau muat naik imej, dan kemudian menghuraikan hasil teknologi OCR dan teknologi pengecaman teks boleh membantu kami mendigitalkan bilangan dokumen kertas , meningkatkan kecekapan pengurusan Tetapi perlu diperhatikan bahawa dalam aplikasi praktikal, kita perlu memilih perpustakaan OCR yang sesuai untuk projek kita dan melaksanakannya mengikut keperluan sebenar.
Atas ialah kandungan terperinci Bagaimana untuk menggunakan PHP untuk pengecaman OCR dan pengecaman teks?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!