Comment gérer les paires de substitution dans les Unicodes Python
En Python, les paires de substitution sont utilisées pour représenter les caractères Unicode au-delà du plan multilingue de base (BMP ). Ces paires sont constituées de deux points de code de substitution utilisés pour coder un seul caractère Unicode.
Lorsque vous travaillez avec des chaînes Unicode Python contenant des paires de substitution, vous pouvez rencontrer des erreurs liées à l'encodage de substitution. Ces erreurs se produisent car Python gère les paires de substitution différemment selon le contexte.
Gestion des paires de substitution
Pour convertir une paire de substitution en chaîne normale, vous disposez de plusieurs options :
Utilisez le module json :
Encoder et décoder avec la méthode encode() :
Exemple :
<code class="python">emoji = "This is \ud83d\ude4f, an emoji." encoded = emoji.encode("utf-16") decoded = encoded.decode("utf-16") print(decoded) # Output: "This is ?, an emoji."</code>
Utilisez le gestionnaire d'erreurs surrogatepass :
Exemple :
<code class="python">encoded = emoji.encode("utf-16", "surrogatepass") decoded = encoded.decode("utf-16") print(decoded) # Output: "?"</code>
Notez que l'approche que vous choisirez dépendra du contexte spécifique et du format de sortie souhaité.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!