À propos des problèmes d'encodage chinois en Python
Le contenu de cet article concerne les problèmes de codage chinois en Python. Il a une certaine valeur de référence. Maintenant, je le partage avec vous. Les amis dans le besoin peuvent s'y référer
1. Problèmes d'encodage chinois en python
1.1 Encodage dans les fichiers .py
Les fichiers de script par défaut de Python sont tous codés en ANSCII, lorsqu'il y a des caractères dans le fichier qui ne sont pas dans la plage de codage ANSCII, vous devez utiliser les "instructions de codage" pour le corriger. Dans la définition d'un module, si le fichier .py contient des caractères chinois (à proprement parler, il contient des caractères non-anscii), vous devez préciser l'instruction d'encodage sur la première ou la deuxième ligne : # -* - coding =utf-8 -*-or #coding=utf-8 D'autres encodages tels que : gbk, gb2312 sont également acceptables ; sinon un message similaire apparaîtra : SyntaxError : Caractère non-ASCII '/xe4' dans le fichier ChineseTest.py à la ligne 1, mais aucun encodage déclaré ; voir les informations d'exception telles que http://www.pytho pour plus de détails ;Parlons d'abord des types de chaîne en python. Il existe deux types de chaîne en python, à savoir str et unicode. Ce sont deux classes dérivées de basestring. Le type str est un caractère qui contient des caractères représentés. (au moins) Une séquence d'octets de 8 bits ; chaque unité Unicode est un obj Unicode donc : la valeur len(u'China') est également 2 ; ;
Il y a cette phrase dans la documentation de str : Le type de données chaîne est également utilisé pour représenter des tableaux d'octets, par exemple pour contenir les données lues à partir d'un fichier. un fichier, ou lors de la lecture du contenu du réseau, l'objet géré est de type str ; si vous souhaitez convertir un str en un type d'encodage spécifique, vous devez convertir str en Unicode, puis convertir d'Unicode en un type d'encodage spécifique. tels que : utf-8, gb2312 etc. ;
Fonctions de conversion fournies en python :
unicode vers gb2312, utf-8, etc.
utf- 8, GBK en unicode en utilisant la fonction unicode (s,encoding) ou s.decode(encoding)# -*- coding=UTF-8 -*- if __name__ == '__main__': s = u'中国' s_gb = s.encode('gb2312')
# -*- coding=UTF-8 -*- if __name__ == '__main__': s = u'中国' #s为unicode先转为utf-8 s_utf8 = s.encode('UTF-8') assert(s_utf8.decode('utf-8') == s)
# -*- coding=UTF-8 -*- if __name__ == '__main__': s = '中国' su = u'中国'' #s为unicode先转为utf-8 #因为s为所在的.py(# -*- coding=UTF-8 -*-)编码为utf-8 s_unicode = s.decode('UTF-8') assert(s_unicode == su) #s转为gb2312,先转为unicode再转为gb2312 s.decode('utf-8').encode('gb2312') #如果直接执行s.encode('gb2312')会发生什么? s.encode('gb2312') # -*- coding=UTF-8 -*- if __name__ == '__main__': s = '中国' #如果直接执行s.encode('gb2312')会发生什么? s.encode('gb2312')
Python décodera automatiquement les s en Unicode d'abord, puis les encodera en gb2312. Étant donné que le décodage est effectué automatiquement par python et que nous ne spécifions pas la méthode de décodage, python utilisera la méthode spécifiée par sys.defaultencoding pour décoder. Dans de nombreux cas, sys.defaultencoding est ANSCII et une erreur se produira si s n'est pas de ce type.
Prenons la situation ci-dessus comme exemple. Mon sys.defaultencoding est ancii, et la méthode d'encodage de s est cohérente avec la méthode d'encodage du fichier, qui est utf8, donc une erreur s'est produite : UnicodeDecodeError : le codec 'ascii' peut 't décoder l'octet 0xe4 en position 0 : ordinal pas dans la plage (128)Dans ce cas, nous avons deux façons de corriger l'erreur :
La première consiste à indiquer clairement la méthode d'encodage de s
La seconde consiste à remplacer sys.defaultencoding par la méthode d'encodage du fichier
#! /usr/bin/env python # -*- coding: utf-8 -*- s = '中文' s.decode('utf-8').encode('gb2312')
#! /usr/bin/env python # -*- coding: utf-8 -*- import sys reload(sys) # Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法,我们需要重新载入 sys.setdefaultencoding('utf-8') str = '中文' str.encode('gb2312')
abc chinois Utilisez python pour lire # coding=gbk
print open( "Test.txt").read()
Résultat : abc Chinois
Changez le format de fichier en UTF-8 :
Résultat : abc涓枃
Évidemment, un décodage est nécessaire ici :
Résultat :abc中文
J'ai utilisé Editplus pour modifier le test.txt ci-dessus, mais lorsque j'ai utilisé le Bloc-notes intégré de Windows pour le modifier et l'enregistrer au format UTF-8,
# coding=gbk import codecs print open("Test.txt").read().decode("utf-8")
Il s'avère que certains logiciels, comme le bloc-notes, insèreront trois caractères invisibles (0xEF 0xBB 0xBF, ou BOM) au début du fichier lors de l'enregistrement d'un fichier codé en UTF-8.
Il faut donc supprimer nous-mêmes ces caractères lors de la lecture. Le module codecs en python définit cette constante :
Traceback (most recent call last): File "ChineseTest.py", line 3, in <module> print open("Test.txt").read().decode("utf-8") UnicodeEncodeError: 'gbk' codec can't encode character u'/ufeff' in position 0: illegal multibyte sequence
Résultat : abc chinois
# coding=gbk import codecs data = open("Test.txt").read() if data[:3] == codecs.BOM_UTF8: data = data[3:] print data.decode("utf-8")
(4) Quelques problèmes restants
La première réaction est que nous utilisons gbk (# coding=gbk) dans notre instruction de codage, mais est-ce vraiment le cas ? Modifier le fichier source :
Exécuter, erreur :
# coding=utf-8 s = "中文" print unicode(s, "utf-8")
Évidemment, si le précédent est normal car gbk est utilisé sur les deux côtés, alors ici j'ai conservé la cohérence UTF-8 des deux côtés, et cela devrait être normal sans provoquer d'erreur.
Un autre exemple, si on utilise encore gbk pour la conversion ici :
Traceback (most recent call last): File "ChineseTest.py", line 3, in <module> s = unicode(s, "utf-8") UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data
Résultat : Chinois
# coding=utf-8 s = "中文" print unicode(s, "gbk")
To print data reliably, you must know the encoding that this display program expects.
简单地说,python中的print直接把字符串传递给操作系统,所以你需要把str解码成与操作系统一致的格式。Windows使用CP936(几乎与gbk相同),所以这里可以使用gbk。
最后测试:
# coding=utf-8 s = "中文" rint unicode(s, "cp936") # 结果:中文
这也可以解释为何如下输出不一致:
>>> s="哈哈" >>> s' \xe5\x93\x88\xe5\x93\x88' >>> print s #这里为啥就可以呢? 见上文对print的解释 哈哈>>> import sys >>> sys.getdefaultencoding() ' ascii' >>> print s.encode('utf8') # s在encode之前系统默认按ascii模式把s解码为unicode,然后再encode为utf8 Traceback (most recent call last): File "<stdin>", line 1, in ? UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 0: ordinal not in range(128) >>> print s.decode('utf-8').encode('utf8') 哈哈 >>>
编码问题测试
使用 chardet 可以很方便的实现字符串/文件的编码检测
例子如下:
>>> import urllib>>> rawdata = urllib.urlopen('http://www.google.cn/').read()>>> import chardet >>> chardet.detect(rawdata){'confidence': 0.98999999999999999, 'encoding': 'GB2312'}>>>
chardet 下载地址 http://chardet.feedparser.org/
特别提示:
在工作中,经常遇到,读取一个文件,或者是从网页获取一个问题,明明看着是gb2312的编码,可是当使用decode转时,总是出错,这个时候,可以使用decode('gb18030')这个字符集来解决,如果还是有问题,这个时候,一定要注意,decode还有一个参数,比如,若要将某个String对象s从gbk内码转换为UTF-8,可以如下操作
s.decode('gbk').encode('utf-8′)
可是,在实际开发中,我发现,这种办法经常会出现异常:
UnicodeDecodeError: ‘gbk' codec can't decode bytes in position 30664-30665: illegal multibyte sequence
这 是因为遇到了非法字符——尤其是在某些用C/C++编写的程序中,全角空格往往有多种不同的实现方式,比如/xa3/xa0,或者/xa4/x57,这些 字符,看起来都是全角空格,但它们并不是“合法”的全角空格(真正的全角空格是/xa1/xa1),因此在转码的过程中出现了异常。
这样的问题很让人头疼,因为只要字符串中出现了一个非法字符,整个字符串——有时候,就是整篇文章——就都无法转码。
解决办法:
s.decode('gbk', ‘ignore').encode('utf-8′)
因为decode的函数原型是decode([encoding], [errors='strict']),可以用第二个参数控制错误处理的策略,默认的参数就是strict,代表遇到非法字符时抛出异常;
如果设置为ignore,则会忽略非法字符;
如果设置为replace,则会用?取代非法字符;
如果设置为xmlcharrefreplace,则使用XML的字符引用。
python文档
decode( [encoding[, errors]])
Decodes the string using the codec registered for encoding. encoding defaults to the default string encoding. errors may be given to set a different error handling scheme. The default is 'strict', meaning that encoding errors raise UnicodeError. Other possible values are 'ignore', 'replace' and any other name registered via codecs.register_error, see section 4.8.1.
详细出处参考:http://www.jb51.net/article/16104.htm
参考文献
【1】Python编码转换
【3】Python编码实现
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

PHP et Python ont leurs propres avantages et inconvénients, et le choix dépend des besoins du projet et des préférences personnelles. 1.Php convient au développement rapide et à la maintenance des applications Web à grande échelle. 2. Python domine le domaine de la science des données et de l'apprentissage automatique.

Activer l'accélération du GPU Pytorch sur le système CentOS nécessite l'installation de versions CUDA, CUDNN et GPU de Pytorch. Les étapes suivantes vous guideront tout au long du processus: CUDA et CUDNN Installation détermineront la compatibilité de la version CUDA: utilisez la commande NVIDIA-SMI pour afficher la version CUDA prise en charge par votre carte graphique NVIDIA. Par exemple, votre carte graphique MX450 peut prendre en charge CUDA11.1 ou plus. Téléchargez et installez Cudatoolkit: visitez le site officiel de Nvidiacudatoolkit et téléchargez et installez la version correspondante selon la version CUDA la plus élevée prise en charge par votre carte graphique. Installez la bibliothèque CUDNN:

Python et JavaScript ont leurs propres avantages et inconvénients en termes de communauté, de bibliothèques et de ressources. 1) La communauté Python est amicale et adaptée aux débutants, mais les ressources de développement frontal ne sont pas aussi riches que JavaScript. 2) Python est puissant dans les bibliothèques de science des données et d'apprentissage automatique, tandis que JavaScript est meilleur dans les bibliothèques et les cadres de développement frontaux. 3) Les deux ont des ressources d'apprentissage riches, mais Python convient pour commencer par des documents officiels, tandis que JavaScript est meilleur avec MDNWEBDOCS. Le choix doit être basé sur les besoins du projet et les intérêts personnels.

Docker utilise les fonctionnalités du noyau Linux pour fournir un environnement de fonctionnement d'application efficace et isolé. Son principe de travail est le suivant: 1. Le miroir est utilisé comme modèle en lecture seule, qui contient tout ce dont vous avez besoin pour exécuter l'application; 2. Le Système de fichiers Union (UnionFS) empile plusieurs systèmes de fichiers, ne stockant que les différences, l'économie d'espace et l'accélération; 3. Le démon gère les miroirs et les conteneurs, et le client les utilise pour l'interaction; 4. Les espaces de noms et les CGROUP implémentent l'isolement des conteneurs et les limitations de ressources; 5. Modes de réseau multiples prennent en charge l'interconnexion du conteneur. Ce n'est qu'en comprenant ces concepts principaux que vous pouvez mieux utiliser Docker.

Minio Object Storage: Déploiement haute performance dans le système Centos System Minio est un système de stockage d'objets distribué haute performance développé sur la base du langage Go, compatible avec Amazons3. Il prend en charge une variété de langages clients, notamment Java, Python, JavaScript et GO. Cet article introduira brièvement l'installation et la compatibilité de Minio sur les systèmes CentOS. Compatibilité de la version CentOS Minio a été vérifiée sur plusieurs versions CentOS, y compris, mais sans s'y limiter: CentOS7.9: fournit un guide d'installation complet couvrant la configuration du cluster, la préparation de l'environnement, les paramètres de fichiers de configuration, le partitionnement du disque et la mini

La formation distribuée par Pytorch sur le système CentOS nécessite les étapes suivantes: Installation de Pytorch: La prémisse est que Python et PIP sont installés dans le système CentOS. Selon votre version CUDA, obtenez la commande d'installation appropriée sur le site officiel de Pytorch. Pour la formation du processeur uniquement, vous pouvez utiliser la commande suivante: pipinstalltorchtorchVisionTorChaudio Si vous avez besoin d'une prise en charge du GPU, assurez-vous que la version correspondante de CUDA et CUDNN est installée et utilise la version Pytorch correspondante pour l'installation. Configuration de l'environnement distribué: la formation distribuée nécessite généralement plusieurs machines ou des GPU multiples uniques. Lieu

Lors de l'installation de Pytorch sur le système CentOS, vous devez sélectionner soigneusement la version appropriée et considérer les facteurs clés suivants: 1. Compatibilité de l'environnement du système: Système d'exploitation: Il est recommandé d'utiliser CentOS7 ou plus. CUDA et CUDNN: La version Pytorch et la version CUDA sont étroitement liées. Par exemple, Pytorch1.9.0 nécessite CUDA11.1, tandis que Pytorch2.0.1 nécessite CUDA11.3. La version CUDNN doit également correspondre à la version CUDA. Avant de sélectionner la version Pytorch, assurez-vous de confirmer que des versions compatibles CUDA et CUDNN ont été installées. Version Python: branche officielle de Pytorch

Python excelle dans l'automatisation, les scripts et la gestion des tâches. 1) Automatisation: La sauvegarde du fichier est réalisée via des bibliothèques standard telles que le système d'exploitation et la fermeture. 2) Écriture de script: utilisez la bibliothèque PSUTIL pour surveiller les ressources système. 3) Gestion des tâches: utilisez la bibliothèque de planification pour planifier les tâches. La facilité d'utilisation de Python et la prise en charge de la bibliothèque riche en font l'outil préféré dans ces domaines.
