Go는 문자열로 변환할 때 잘못된 바이트 시퀀스를 어떻게 처리합니까?-Golang-php.cn

Go는 문자열로 변환할 때 잘못된 바이트 시퀀스를 어떻게 처리합니까?

Linda Hamilton

풀어 주다： 2024-12-06 04:44:17

원래의

556명이 탐색했습니다.

How Does Go Handle Invalid Byte Sequences When Converting to Strings?

Go에서 잘못된 바이트 시퀀스 유효성 검사

Go에서 바이트 슬라이스([]byte)를 문자열로 변환하려고 하면 바이트 시퀀스를 유효한 유니코드로 변환할 수 없는 시나리오를 처리하는 데 중요합니다. 문자열.

해결책:

1. UTF-8 유효성 검사:

Tim Cooper가 제안한 대로 utf8.Valid 함수를 활용하여 바이트 슬라이스가 유효한 UTF-8 시퀀스인지 확인할 수 있습니다. utf8.Valid가 false를 반환하면 잘못된 바이트가 있음을 나타냅니다.

2. 비UTF-8 바이트 처리:

일반적인 믿음과는 달리 비UTF-8 바이트도 여전히 Go 문자열에 저장될 수 있습니다. 이는 Go의 문자열이 본질적으로 읽기 전용 바이트 슬라이스이기 때문입니다. 여기에는 유효하지 않은 UTF-8 바이트가 포함될 수 있으며, 이는 문제 없이 액세스하거나 인쇄하거나 바이트 슬라이스로 다시 변환할 수도 있습니다.

그러나 Go는 특정 시나리오에서 UTF-8 디코딩을 수행합니다.

범위 루프: 범위 루프를 사용하여 문자열의 유니코드 코드 포인트를 반복할 때 반환되는 룬 값은 유효하지 않은 UTF-8이 대체 문자 U FFFD(�)로 대체된 유니코드 코드 포인트.
룬으로 변환: 문자열을 룬 조각([]rune)으로 변환하면 전체 문자열을 디코딩하여 유효하지 않은 UTF-8을 U로 바꿉니다. FFFD.

참고: 이러한 변환은 결코 패닉을 일으키지 않으므로 애플리케이션에 필수적인 경우에만 UTF-8 유효성을 적극적으로 확인하면 됩니다(예: U FFFD는 허용되지 않으며 오류가 발생해야 합니다.

샘플 코드:

다음 코드는 Go가 잘못된 UTF-8이 포함된 바이트 슬라이스를 처리하는 방법을 보여줍니다.

package main

import "fmt"

func main() {
    a := []byte{0xff} // Invalid UTF-8 byte
    s := string(a)
    fmt.Println(s)       // �
    for _, r := range s { // Range loop replaces invalid UTF-8 with U+FFFD
        fmt.Println(r) // 65533
    }
    rs := []rune(s) // Conversion to runes decodes UTF-8 (U+FFFD)
    fmt.Println(rs)    // [65533]
}

로그인 후 복사

위 내용은 Go는 문자열로 변환할 때 잘못된 바이트 시퀀스를 어떻게 처리합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!