Validation des séquences d'octets invalides dans Go
Lorsque vous essayez de convertir une tranche d'octets ([]byte) en chaîne dans Go, c'est crucial pour gérer les scénarios dans lesquels les séquences d'octets ne peuvent pas être converties en un Unicode valide chaîne.
Solution :
1. Contrôle de validité UTF-8 :
Comme suggéré par Tim Cooper, vous pouvez utiliser la fonction utf8.Valid pour déterminer si une tranche d'octets est une séquence UTF-8 valide. Si utf8.Valid renvoie false, cela indique la présence d'octets invalides.
2. Gestion des octets non UTF-8 :
Contrairement à la croyance populaire, les octets non UTF-8 peuvent toujours être stockés dans une chaîne Go. En effet, les chaînes dans Go sont essentiellement des tranches d'octets en lecture seule. Ils peuvent contenir des octets UTF-8 non valides, qui peuvent être consultés, imprimés ou même reconvertis en tranche d'octets sans problème.
Cependant, Go effectue le décodage UTF-8 dans des scénarios spécifiques :
Remarque : Ces les conversions n'entraînent jamais de panique, il est donc seulement nécessaire de vérifier activement la validité de l'UTF-8 si cela est essentiel pour votre application (par exemple, si U FFFD est inacceptable et qu'une erreur doit être générée).
Exemple de code :
Le code suivant montre comment Go gère une tranche d'octets contenant des éléments non valides UTF-8 :
package main import "fmt" func main() { a := []byte{0xff} // Invalid UTF-8 byte s := string(a) fmt.Println(s) // � for _, r := range s { // Range loop replaces invalid UTF-8 with U+FFFD fmt.Println(r) // 65533 } rs := []rune(s) // Conversion to runes decodes UTF-8 (U+FFFD) fmt.Println(rs) // [65533] }
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!