Dans cet article, 'Ha' est utilisé comme exemple pour expliquer tous les problèmes. Les différents encodages de "Ha" sont les suivants :
1 UNICODE (UTF8-16), C854 ; . UTF-8, E59388 ;
3. GBK,B9FE.
1. str et unicode en python
L'encodage chinois en python a toujours été un très gros problème, et des exceptions de conversion d'encodage sont souvent levées. Que sont exactement str et unicode en python ?
Lorsque Unicode est mentionné en python, il fait généralement référence à des objets Unicode. Par exemple, l'objet Unicode de 'haha' est
u'u54c8u54c8'
Et str est un tableau d'octets. est le format de stockage après encodage des objets Unicode (peut être utf-8, gbk, cp936, GB2312). Ici, il s'agit simplement d'un flux d'octets, sans autre signification. Si vous souhaitez rendre significatif le contenu affiché par ce flux d'octets, vous devez utiliser le format de codage, le décodage et l'affichage corrects.
Par exemple :
sys.setdefaultencoding('gbk') et la conversion peut alors réussir. Pourquoi ? Dans le processus d'encodage et de décodage de str et unicode en Python, si une str est directement codée dans un autre encodage, str sera d'abord décodée en unicode, et l'encodage utilisé est l'encodage par défaut. Généralement, l'encodage par défaut est ancii, donc in. l'exemple ci-dessus Une erreur se produira lors de la première conversion dans le code. Après avoir défini le codage par défaut actuel sur 'gbk', il n'y aura aucune erreur. Quant à reload(sys), comme Python2.5 supprimera la méthode sys.setdefaultencoding après l'initialisation, nous devons la recharger. 4. Manipuler des fichiers avec différents formats d'encodage Créer un fichier test.txt Le format de fichier est ANSI et le contenu est :
Utilisez python pour lire
# coding=gbk
print open("Test.txt").read()
Résultat : abc chinois
Changez le format de fichier en UTF-8 :
Résultat : abc涓枃
Évidemment, le décodage est requis ici :
# coding=gbk
importer des codecs
print open("Test.txt").read().decode("utf-8")
Résultat : abc chinois
ci-dessus J'ai modifié le test.txt à l'aide d'Editplus, mais lorsque je l'ai modifié à l'aide du Bloc-notes intégré de Windows et que je l'ai enregistré au format UTF-8,
a signalé une erreur lors de l'exécution :
Traceback ( dernier appel le plus récent) :
Fichier "ChineseTest.py", ligne 3, dans
print open("Test.txt").read().decode("utf-8" )
UnicodeEncodeError : le codec 'gbk' ne peut pas encoder le caractère u'ufeff' en position 0 : séquence multi-octets illégale
Il s'avère que certains logiciels, tels que le bloc-notes, enregistrent un fichier encodé en UTF- 8 , trois caractères invisibles (0xEF 0xBB 0xBF, ou BOM) seront insérés au début du fichier.
Nous devons donc supprimer nous-mêmes ces caractères lors de la lecture. Le module codecs en python définit cette constante :
# coding=gbk
import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")
Résultat : abc chinois
5 Le format d'encodage du fichier et le rôle de l'instruction d'encodage
Le fichier source Quel effet le format d'encodage a-t-il sur la déclaration des chaînes ? Ce problème me tracasse depuis longtemps, et maintenant j'ai enfin quelques indices. Le format d'encodage du fichier détermine le format d'encodage de la chaîne déclarée dans le fichier source, par exemple :
str = ' Haha'
print repr(str)
a. Si le format de fichier est utf-8, alors la valeur de str est : 'xe5x93x88xe5x93x88' (encodage utf-8 de haha)
b. Si le format de fichier est gbk, alors la valeur de str est : 'xb9xfexb9xfe' (haha gbk encodage)
Comme mentionné dans la première section, une chaîne en python n'est qu'un tableau d'octets, ainsi, lorsque a Lorsque la chaîne du cas b est sortie sur la console codée en gbk, elle sera affichée sous forme de caractères tronqués : 鍝矚搱; et lorsque la chaîne du cas b est sortie sur la console codée en utf-8, des caractères tronqués sera également affiché. Quel est le problème ? Non, peut-être que « xb9xfexb9xfe » est décodé et affiché en utilisant utf-8, donc il est vide. >_<
Après avoir parlé du format de fichier, parlons du rôle de l'instruction d'encodage. En haut de chaque fichier, une instruction comme #coding=gbk sera utilisée pour déclarer l'encodage, mais. cette déclaration à quoi ça sert ? Jusqu'à présent, je pense qu'il a trois fonctions :
déclare que l'encodage non-ascii apparaîtra dans le fichier source, généralement en chinois
en mode avancé dans l'IDE, l'EDI enregistrera votre format de fichier dans le format d'encodage que vous spécifiez.
Déterminer le format d'encodage utilisé pour décoder 'ha' en Unicode pour des déclarations comme u'ha' dans le code source est également un endroit déroutant :
#coding:gbk