Menukar Aksara Bukan Inggeris kepada Abjad Inggeris di Jawa
Aksara bukan Inggeris boleh menimbulkan cabaran apabila menggunakan data teks. Untuk menyelaraskan pemprosesan, selalunya perlu menukar aksara ini kepada abjad Inggeris yang setara. Tugas ini boleh menjadi menakutkan, memandangkan bilangan aksara Unikod yang banyak.
Pernyataan Masalah
Cabarannya terletak pada mengenal pasti dan menukar aksara yang serupa daripada carta Unikod kepada huruf dalam abjad Inggeris. Sebagai contoh, beberapa variasi huruf "A" wujud, menjadikan pengelasan sukar.
Penyelesaian
Untuk menangani isu ini di Java, anda boleh memanfaatkan kelas Normalizer dan ungkapan biasa. Pendekatan berikut memudahkan proses penukaran:
Normalkan Rentetan:
Alih Keluar Diakritik:
Ganti Diakritik:
Kaedah ini terutamanya mengalih keluar tanda diakritik (aksen) daripada aksara beraksen, dengan berkesan menukarkannya kepada abjad Inggeris yang setara.
Contoh
Kod Java berikut menunjukkan perkara ini pendekatan:
import java.text.Normalizer; import java.util.regex.Pattern; public class ConvertAccentedCharsToEnglish { public static String deAccent(String str) { String nfdNormalizedString = Normalizer.normalize(str, Normalizer.Form.NFD); Pattern pattern = Pattern.compile("\p{InCombiningDiacriticalMarks}+"); return pattern.matcher(nfdNormalizedString).replaceAll(""); } public static void main(String[] args) { String accentedString = "tђє Ŧค๓เℓy"; String convertedString = deAccent(accentedString); System.out.println(convertedString); // Output: the Family } }
Atas ialah kandungan terperinci Bagaimana untuk Menukar Aksara Bukan Bahasa Inggeris kepada Abjad Inggeris di Jawa?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!