Pengecaman Aksara Optik (OCR) memainkan peranan penting dalam mendigitalkan teks bercetak, menjadikannya lebih padat untuk menyunting, mencari dan menyimpan. Salah satu alat OCR yang paling berkuasa ialah Tesseract OCR. Artikel ini akan meneroka cara menggunakan Java dengan Tesseract OCR, memberikan contoh terperinci untuk meningkatkan pemahaman anda.
Tesseract OCR ialah enjin OCR sumber terbuka yang ditaja oleh Google yang boleh mengenali secara langsung lebih daripada 100 bahasa. Ia dipuji secara meluas kerana ketepatan dan kebolehsuaiannya, menjadikannya pilihan popular di kalangan pelbagai pembangun aplikasi.
Untuk mengintegrasikan Tesseract OCR dengan Java, kita perlu menggunakan Tess4J, yang biasanya dikenali sebagai Tesseract API untuk Java. Tess4J menyediakan pembalut Java JNA untuk API OCR Tesseract, merapatkan jurang antara enjin Tesseract dan aplikasi Java.
Pertama, kita perlu memasang Tesseract OCR dan Tess4J. Tesseract boleh dipasang pada Windows, Linux dan MacOS menggunakan pengurus pakej masing-masing. Untuk memasukkan Tess4J dalam projek Java anda, anda boleh menambahkannya sebagai kebergantungan Maven -
<dependency> <groupId>net.sourceforge.tess4j</groupId> <artifactId>tess4j</artifactId> <version>4.5.4 </version> <!-- or whatever the latest version is --> </dependency>
Di bawah ialah coretan kod Java yang mudah untuk melakukan OCR pada fail imej -
import net.sourceforge.tess4j.*; public class OCRExample { public static void main(String[] args) { File imageFile = new File("path_to_your_image_file"); ITesseract instance = new Tesseract(); // JNA Interface Mapping instance.setDatapath("path_to_tessdata"); // replace with your tessdata path try { String result = instance.doOCR(imageFile); System.out.println(result); } catch (TesseractException e) { System.err.println(e.getMessage()); } } }
Dalam contoh ini, kami membuat seketika objek Tesseract dan menetapkan laluan ke direktori tessdata, yang mengandungi fail data bahasa. Kami kemudian memanggil doOCR() pada fail imej, yang mengembalikan rentetan yang mengandungi teks yang diiktiraf.
Tesseract OCR menyokong lebih daripada 100 bahasa. Untuk melaksanakan OCR menggunakan bahasa lain, hanya tetapkan bahasa pada contoh Tesseract anda -
instance.setLanguage("fra"); // for French
Kemudian, panggil fungsi doOCR() seperti biasa −
try { String result = instance.doOCR(imageFile); System.out.println(result); } catch (TesseractException e) { System.err.println(e.getMessage()); }
Imej kini akan OCR menggunakan data Perancis.
Tesseract OCR, digabungkan dengan Java, menyediakan set alat yang berkuasa untuk pembangun yang perlu melaksanakan fungsi OCR dalam aplikasi mereka. Fleksibiliti, ketepatan dan sokongan bahasa yang luas Tesseract menjadikannya pilihan yang sangat baik untuk pelbagai tugas OCR.
Atas ialah kandungan terperinci Tesseract OCR menggunakan Java dan contohnya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!