> 백엔드 개발 > Golang > Go에서 멀티바이트 문자를 사용할 때 문자열 대신 룬 슬라이스를 사용해야 하는 이유는 무엇입니까?

Go에서 멀티바이트 문자를 사용할 때 문자열 대신 룬 슬라이스를 사용해야 하는 이유는 무엇입니까?

Barbara Streisand
풀어 주다: 2024-11-02 14:03:02
원래의
714명이 탐색했습니다.

Why Should You Use Rune Slices Instead of Strings When Working with Multibyte Characters in Go?

Ranging Over String과 Rune Slice의 차이점 이해

Go에서 문자열을 사용하여 작업할 때 다음과 같은 두 가지 일반적인 시나리오에 직면할 수 있습니다. 문자열과 룬 조각 위에 걸쳐 있습니다. 두 접근 방식 모두 문자 검색에 있어서 유사해 보일 수 있지만 프로그램 동작에 영향을 미칠 수 있는 미묘한 차이가 있습니다.

문자열 범위 지정

다음 코드를 고려하세요.

<code class="go">func main() {
    str := "123456"
    for _, s := range str {
        fmt.Printf("type of v: %s, value: %v, string v: %s \n", reflect.TypeOf(s), s, string(s))
    }
}</code>
로그인 후 복사

이 코드는 문자열의 각 문자를 반복하지만 s의 데이터 유형은 int32이고 문자열은 룬을 문자열로 인코딩하는 데 사용됩니다.

룬 조각 위에 배열

이제 []rune(str):

<code class="go">func main() {
    str := "123456"
    for _, s := range []rune(str) {
        fmt.Printf("type : %s, value: %v ,string : %s\n", reflect.TypeOf(s), s, string(s))
    }
}</code>
로그인 후 복사

을 사용하여 문자열을 룬 조각으로 변환하는 변형을 살펴보겠습니다. 은 룬이고 문자열은 여전히 ​​동일한 문자열 표현을 제공합니다.

미묘한 구별

두 시나리오의 결과가 언뜻 보면 동일해 보일 수 있지만, 중요한 차이점이 있습니다.

  • 문자열을 범위로 지정할 때 인덱스(_)는 바이트 인덱스를 나타내고 s는 유니코드 코드를 저장합니다. point.
  • 룬 슬라이스를 범위로 지정할 때 인덱스는 바이트 인덱스도 나타내지만 s는 룬 자체를 저장합니다.

UTF-8 표현이 여러 바이트로 구성되어 있기 때문에 멀티바이트 문자(중국어 또는 한국어와 같은 비라틴어 문자)로 작업할 때 이러한 미묘한 차이가 분명해집니다.

실용적인 의미

멀티바이트 문자를 처리할 때는 문자열 대신 룬 슬라이스를 사용하는 것이 더 적합합니다. 이는 룬이 단일 논리 문자를 나타내는 반면 문자열은 동일한 문자를 나타내는 여러 바이트를 포함할 수 있기 때문입니다.

잠재적인 문제를 방지하려면 일반적으로 문자열보다는 룬 슬라이스보다 범위 루프를 선호하는 것이 좋습니다. 특히 다음과 같은 경우에는 더욱 그렇습니다. 라틴어가 아닌 문자를 다루고 있습니다.

위 내용은 Go에서 멀티바이트 문자를 사용할 때 문자열 대신 룬 슬라이스를 사용해야 하는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿