Go で無効な UTF-8 バイトシーケンスを検出するにはどうすればよいですか?-Golang-php.cn

Go で無効な UTF-8 バイトシーケンスを検出するにはどうすればよいですか?

DDD

リリース： 2024-12-14 22:17:11

オリジナル

333 人が閲覧しました

How Can I Detect Invalid UTF-8 Byte Sequences in Go?

Go での無効なバイトシーケンスの検出

Go では、バイトスライス ([]byte) を文字列に変換するときに、次のことが可能です。 Unicode に変換できない無効なバイトシーケンスが発生しました。これは、すべてのバイトシーケンスが有効な UTF-8 文字を表すわけではないという事実から生じます。

そのような発生を検出するには、次の 2 つのアプローチが利用可能です。

UTF-8 有効性チェック:

Tim Cooper が述べているように、utf8.Valid 関数を利用してバイトスライスかどうかをテストできます。有効な UTF-8 バイトが含まれています。結果が false の場合、無効なバイトシーケンスが存在することを示します。

文字列変換に関する考慮事項:

一般的な想定に反して、Go では非 UTF の変換が許可されています。 -8 バイトの文字列へのスライス。ただし、Go の文字列は本質的に読み取り専用のバイトスライスであるため、有効な UTF-8 ではないバイトにも対応できることに注意することが重要です。

Go が自動的に UTF-8 を実行するのは、特定の状況でのみです。 8 デコード:

for i, r := range s 構文を使用して文字列を反復処理する場合、r 変数は Unicode を表します。コードポイント (ルーン) であり、常に有効です。
文字列からルーンのスライス (つまり、[]rune(s)) に変換するとき、Go は文字列全体をルーンにデコードします。

どちらの場合も、無効な UTF-8 文字は U FFFD 置換文字に置き換えられます。この置換はすべてのアプリケーションで受け入れられるわけではないため、必要に応じて明示的な UTF-8 検証を実行することをお勧めします。

例:

次の Go プログラムを考えてみましょう。

package main

import (
    "fmt"
    "unicode/utf8"
)

func main() {
    a := []byte{0xff}
    s := string(a)

    // Check UTF-8 validity
    if utf8.Valid(a) {
        fmt.Println("Valid UTF-8")
    } else {
        fmt.Println("Invalid UTF-8")
    }

    // Output string
    fmt.Println(s)
}

ログイン後にコピー

出力: