Menukar Simbol dan Huruf Aksen kepada Abjad Inggeris di Jawa
Pernyataan Masalah
Unicode merangkumi repertoir aksara yang luas, kebanyakannya serupa dengan huruf dalam abjad Inggeris. Cabarannya terletak pada menukar semua aksara yang serupa ini kepada rakan sejawat bahasa Inggeris mereka. Contohnya:
Versi Unicode huruf seperti A/a menimbulkan kesukaran pengelasan selanjutnya.
Java Solution
Untuk menangani cabaran penukaran ini, kami boleh memanfaatkan perkara berikut pendekatan dalam Java:
import java.text.Normalizer; import java.util.regex.Pattern; public String deAccent(String str) { String nfdNormalizedString = Normalizer.normalize(str, Normalizer.Form.NFD); Pattern pattern = Pattern.compile("\p{InCombiningDiacriticalMarks}+"); return pattern.matcher(nfdNormalizedString).replaceAll(""); }
Kod ini mula-mula menormalkan rentetan menggunakan NFD dan kemudian menggunakan regex untuk menanggalkan tanda diakritik, mengakibatkan penyingkiran simbol aksen dan penukaran aksara kepada abjad bahasa Inggeris yang setara.
Atas ialah kandungan terperinci Bagaimana untuk Menukar Simbol Unikod dan Huruf Aksen kepada Abjad Inggeris di Jawa?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!