Persamaan Unikod untuk w dan b dalam Ungkapan Biasa Java
Pelaksanaan regex Java mempunyai sokongan terhad untuk Unicode, menjadikannya sukar untuk memadankan perkataan atau sempadan perkataan dengan tepat. Pelepasan w dan b lalai hanya sepadan dengan aksara ASCII.
Untuk menangani isu ini, pertimbangkan untuk menggunakan fungsi yang menulis semula pelarian ini, menggantikannya dengan takrifan sedar Unikod. Fungsi ini boleh menulis semula 14 charclass escape berikut:
Definisi Melarikan Diri Ditulis Semula:
Larian sempadan (b dan B) boleh ditulis semula menggunakan logik berikut:
b : (?:(?<=w)(?!w)|(?B: (?:(?<=w)(?= w)|(?Ini fungsi boleh dilaksanakan dalam Java menggunakan kod yang disediakan dalam utas perbincangan asal. Dengan menggunakan kod ini, anda boleh menulis semula corak regex untuk mengendalikan aksara Unicode dengan lebih baik.
Nota:Dalam Java 7, kelas Pattern memperkenalkan bendera UNICODE_CHARACTER_CLASS, yang membolehkan sokongan Unicode untuk ini melarikan diri secara lalai.Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Meningkatkan Sokongan Unicode dalam Ungkapan Biasa Java untuk \w dan \b?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!