Go Regex \\b 경계가 라틴 문자로 인해 실패하는 이유는 무엇입니까?

Barbara Streisand
풀어 주다: 2024-11-03 04:20:31
원래의
776명이 탐색했습니다.

 Why Does Go Regex \b Boundary Fail with Latin Characters?

Go Regex의 라틴 문자를 사용한 b 경계

Go 정규 표현식의 세계에서 b 경계 옵션은 처리할 때 약간의 특이점이 있습니다. 라틴 문자로. 문제는 악센트 모음 및 특수 문자와 같은 라틴 문자가 포함된 단어를 정의하려고 할 때 발생합니다.

b 경계 옵션을 사용하여 단어 "vis"를 일치시키려는 다음 예를 고려하십시오.

<code class="go">import (
    "fmt"
    "regexp"
)

func main() {
    r, _ := regexp.Compile(`\b(vis)\b`)
    fmt.Println(r.MatchString("re vis e"))
    fmt.Println(r.MatchString("revise"))
    fmt.Println(r.MatchString("révisé"))
}</code>
로그인 후 복사

놀랍게도 "révisé"를 false로 매칭할 때 예상했던 결과가 발생하지 않습니다. 대신, 이는 true로 일치합니다. 이는 b가 ASCII 단어 경계에서만 작동하기 때문입니다.

이 문제를 해결하고 라틴 문자를 정확하게 일치시키려면 b 경계를 보다 포괄적인 대안으로 바꿀 수 있습니다. 예는 다음과 같습니다.

<code class="go">import (
    "fmt"
    "regexp"
)

func main() {
    r, _ := regexp.Compile(`(?:\A|\s)(vis)(?:\s|\z)`)
    fmt.Println(r.MatchString("vis"))
    fmt.Println(r.MatchString("re vis e"))
    fmt.Println(r.MatchString("revise"))
    fmt.Println(r.MatchString("révisé"))
}</code>
로그인 후 복사

이 수정을 통해 정규식은 이제 문자열 시작(A), 문자열 끝(z) 및 공백(s)의 조합을 사용하여 단어의 시작과 끝을 인식합니다. . 결과는 "vis"를 true로, "révisé"를 false로 정확하게 일치시킵니다.

true
true
false
false
로그인 후 복사

이 기술은 라틴 문자의 존재 여부에 관계없이 정확한 단어 일치를 보장합니다.

위 내용은 Go Regex \\b 경계가 라틴 문자로 인해 실패하는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿