Rumah > pembangunan bahagian belakang > Golang > Mengapa Go Regex \\b Boundary Gagal dengan Aksara Latin?

Mengapa Go Regex \\b Boundary Gagal dengan Aksara Latin?

Barbara Streisand
Lepaskan: 2024-11-03 04:20:31
asal
906 orang telah melayarinya

 Why Does Go Regex \b Boundary Fail with Latin Characters?

b Sempadan dengan Aksara Latin dalam Go Regex

Dalam dunia ungkapan biasa Go, pilihan sempadan b mempunyai sedikit kelainan apabila berurusan dengan aksara Latin. Isu timbul apabila cuba mentakrifkan perkataan yang mengandungi aksara Latin, seperti vokal beraksen dan aksara khas.

Pertimbangkan contoh berikut, di mana kita ingin memadankan perkataan "vis" menggunakan pilihan sempadan b:

<code class="go">import (
    "fmt"
    "regexp"
)

func main() {
    r, _ := regexp.Compile(`\b(vis)\b`)
    fmt.Println(r.MatchString("re vis e"))
    fmt.Println(r.MatchString("revise"))
    fmt.Println(r.MatchString("révisé"))
}</code>
Salin selepas log masuk

Anehnya, hasil yang diharapkan untuk memadankan "revise" sebagai palsu tidak berlaku. Sebaliknya, ia sepadan dengan kebenaran. Ini kerana b beroperasi hanya pada sempadan perkataan ASCII.

Untuk menyelesaikan isu ini dan memadankan aksara Latin dengan tepat, kami boleh menggantikan sempadan b dengan alternatif yang lebih inklusif. Berikut ialah contoh:

<code class="go">import (
    "fmt"
    "regexp"
)

func main() {
    r, _ := regexp.Compile(`(?:\A|\s)(vis)(?:\s|\z)`)
    fmt.Println(r.MatchString("vis"))
    fmt.Println(r.MatchString("re vis e"))
    fmt.Println(r.MatchString("revise"))
    fmt.Println(r.MatchString("révisé"))
}</code>
Salin selepas log masuk

Dengan pengubahsuaian ini, regex kini mengecam permulaan dan akhir perkataan menggunakan gabungan permulaan rentetan (A), akhir rentetan (z) dan ruang kosong (s) . Hasilnya sepadan dengan tepat "vis" sebagai benar dan "revisé" sebagai palsu:

true
true
false
false
Salin selepas log masuk

Teknik ini memastikan padanan perkataan yang tepat, tanpa mengira kehadiran aksara Latin.

Atas ialah kandungan terperinci Mengapa Go Regex \\b Boundary Gagal dengan Aksara Latin?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan