Texte Unicode dans des fichiers texte : un guide complet pour une écriture sans erreur
Le codage des données extraites d'un document Google peut être difficile, en particulier lorsque vous rencontrez des symboles non-ASCII qui doivent être convertis pour une utilisation HTML. Ce guide fournit une solution pour gérer le texte Unicode et éviter les erreurs d'encodage.
Au départ, tout convertir en Unicode lors de la récupération des données et l'écrire dans un fichier peut sembler être la bonne approche. Cependant, cette méthode peut conduire à des erreurs d’encodage dues à la présence de symboles non-ASCII. Pour résoudre ce problème, il est crucial de traiter exclusivement les objets Unicode tout au long du processus.
Lors de la conversion d'un objet Unicode (u'Δ, Й, ק...') en une chaîne inscriptible dans un fichier, il est nécessaire de encodez-le dans un format codé Unicode :
<code class="python">foo = u'Δ, Й, ק, م, ๗, あ, 叶, 葉, and 말.' f = open('test', 'w') f.write(foo.encode('utf8')) f.close()</code>
En codant l'objet Unicode en « utf8 », il peut être écrit dans un fichier sans rencontrer d'erreurs d'encodage.
Lors de la lecture de ce fichier encore une fois, nous devons décoder l'objet chaîne codé en Unicode en un objet Unicode :
<code class="python">f = file('test', 'r') print(f.read().decode('utf8'))</code>
En suivant ces étapes, le texte Unicode peut être écrit et lu en toute sécurité dans des fichiers texte tout en évitant les erreurs d'encodage et en garantissant que les symboles non-ASCII sont gérés correctement.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!