Détection d'octets non convertibles dans les chaînes Go
En Go, certaines séquences d'octets ne peuvent pas être interprétées comme des caractères Unicode valides. La détection de ces séquences invalides est cruciale pour une gestion transparente des chaînes. Voici une explication détaillée :
Contrôle de validité UTF-8 :
Comme mentionné par Tim Cooper, utf8.Valid peut être utilisé pour vérifier la validité UTF-8. Cependant, il est important de noter que les chaînes Go peuvent contenir des caractères non UTF-8. En effet, une chaîne est essentiellement une tranche d'octets, et ces octets ne sont pas toujours conformes au codage UTF-8.
Comportement de décodage :
Go n'effectue que l'UTF -8 décodage dans deux cas spécifiques :
Dans ces deux cas, caractères UTF-8 invalides sont remplacés par le point de code Unicode U FFFD, qui sert d'espace réservé pour les glyphes non pris en charge.
Exceptions à Crashing :
Notez que ces conversions ne crashent jamais. Par conséquent, la vérification explicite de la validité UTF-8 n'est nécessaire que si votre application l'exige, par exemple lors de la gestion d'entrées qui ne peuvent pas accepter U FFFD comme substitut.
Exemple :
Le code suivant montre comment Go gère l'UTF-8 non valide bytes :
package main import "fmt" func main() { a := []byte{0xff} s := string(a) fmt.Println(s) for _, r := range s { fmt.Println(r) } rs := []rune(s) fmt.Println(rs) }
Sortie :
� 65533 [65533]
Comme vous pouvez le voir, la séquence d'octets invalide s'affiche sous la forme � lorsque la chaîne est imprimée dans son ensemble. Lors d'une itération, il renvoie le point de code Unicode pour U FFFD. Et lorsqu'il est converti en tranche de runes, il renvoie une seule rune représentant U FFFD.
Par conséquent, même si Go ne plante pas lors de la conversion d'octets UTF-8 non valides en chaînes, il est important d'être conscient des spécificités comportement et gérez-le en conséquence dans vos applications.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!