Heim > Backend-Entwicklung > Golang > Warum schlägt Go Regex \\b Boundary mit lateinischen Zeichen fehl?

Warum schlägt Go Regex \\b Boundary mit lateinischen Zeichen fehl?

Barbara Streisand
Freigeben: 2024-11-03 04:20:31
Original
873 Leute haben es durchsucht

 Why Does Go Regex \b Boundary Fail with Latin Characters?

b-Grenzen mit lateinischen Zeichen in Go Regex

In der Welt der regulären Go-Ausdrücke hat die b-Grenzenoption beim Umgang eine leichte Besonderheit mit lateinischen Schriftzeichen. Das Problem tritt auf, wenn versucht wird, Wörter zu definieren, die lateinische Zeichen enthalten, wie z. B. akzentuierte Vokale und Sonderzeichen.

Betrachten Sie das folgende Beispiel, in dem wir das Wort „vis“ mit der b-Grenzoption abgleichen möchten:

<code class="go">import (
    "fmt"
    "regexp"
)

func main() {
    r, _ := regexp.Compile(`\b(vis)\b`)
    fmt.Println(r.MatchString("re vis e"))
    fmt.Println(r.MatchString("revise"))
    fmt.Println(r.MatchString("révisé"))
}</code>
Nach dem Login kopieren

Überraschenderweise tritt nicht das erwartete Ergebnis ein, wenn „révisé“ als falsch abgeglichen wird. Stattdessen stimmt es mit „true“ überein. Dies liegt daran, dass b nur an ASCII-Wortgrenzen arbeitet.

Um dieses Problem zu lösen und lateinische Zeichen genau zuzuordnen, können wir die b-Grenze durch eine umfassendere Alternative ersetzen. Hier ist ein Beispiel:

<code class="go">import (
    "fmt"
    "regexp"
)

func main() {
    r, _ := regexp.Compile(`(?:\A|\s)(vis)(?:\s|\z)`)
    fmt.Println(r.MatchString("vis"))
    fmt.Println(r.MatchString("re vis e"))
    fmt.Println(r.MatchString("revise"))
    fmt.Println(r.MatchString("révisé"))
}</code>
Nach dem Login kopieren

Mit dieser Änderung erkennt die Regex jetzt den Anfang und das Ende von Wörtern anhand einer Kombination aus Zeichenfolgenanfang (A), Zeichenfolgenende (z) und Leerzeichen (s). . Das Ergebnis entspricht genau „vis“ als wahr und „révisé“ als falsch:

true
true
false
false
Nach dem Login kopieren

Diese Technik gewährleistet eine genaue Wortübereinstimmung, unabhängig vom Vorhandensein lateinischer Zeichen.

Das obige ist der detaillierte Inhalt vonWarum schlägt Go Regex \\b Boundary mit lateinischen Zeichen fehl?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage