Maison > développement back-end > Tutoriel Python > Comment puis-je lire et écrire correctement des fichiers Unicode (UTF-8) en Python ?

Comment puis-je lire et écrire correctement des fichiers Unicode (UTF-8) en Python ?

Susan Sarandon
Libérer: 2024-11-05 02:35:02
original
256 Les gens l'ont consulté

How Can I Read and Write Unicode (UTF-8) Files Correctly in Python?

E/S de fichier Unicode (UTF-8) en Python

En Python, la gestion du texte Unicode dans les fichiers implique des opérations d'encodage et de décodage. Cependant, comprendre ces concepts peut être difficile, comme en témoigne un problème courant :

Décoder la confusion :

Considérez le code suivant dans Python 2.4 :

<code class="python">ss = u'Capit\xe1n'
ss8 = ss.encode('utf8')
print(ss, ss8)</code>
Copier après la connexion

Ce code génère :

Capit\xe1n b'Capit\xc3\xa1n'
Copier après la connexion

Le caractère a-aigu (á) est représenté différemment en Unicode (u'Capitxe1n') et en UTF-8 (ss8 = 'Capitxc3xa1n'). Lors de l'impression de ss8, Python utilise par défaut une représentation ASCII, d'où la séquence xc3xa1n.

L'ouverture du fichier 'f1' en mode écriture et l'écriture de ss8 entraîne l'écriture de 'Capitxc3xa1nn' dans le fichier. À l'inverse, lors de l'écriture de ss dans un autre fichier « f2 », Python tente d'interpréter le caractère a-aigu comme une séquence d'échappement, ce qui donne « Capitxc3xa1nn ».

Solution de décodage :

Pour résoudre cette confusion, spécifiez explicitement l'encodage lors de l'ouverture du fichier. Dans Python 2.6 et versions ultérieures, la fonction io.open peut être utilisée :

<code class="python">import io
f = io.open("test", mode="r", encoding="utf-8")</code>
Copier après la connexion

Cette approche garantit que le fichier est lu et écrit en UTF-8, éliminant ainsi le besoin d'encodage et de décodage manuels. Dans Python 3.x, la fonction io.open est un alias pour la fonction open intégrée, qui prend également en charge l'argument d'encodage.

Alternativement, le module codecs peut être utilisé :

<code class="python">import codecs
f = codecs.open("test", "r", "utf-8")</code>
Copier après la connexion

Il est important de noter que le mélange des méthodes read() et readline() peut entraîner des problèmes lors de l'utilisation de codecs.open.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal