Explication détaillée de la différence et de l'analyse de l'utilisation entre str et Unicode dans le traitement de l'encodage Python-Tutoriel Python-php.cn

Table des matières

def is_str(s) : return isinstance (s, chaîne de base)

L'encodage par défaut du fichier py est ASCII Dans le fichier de code source, si des caractères non-ASCII sont utilisés, ils doivent l'être. encodé dans l'en-tête du fichier Document de déclaration

Maison

développement back-end

Tutoriel Python

Explication détaillée de la différence et de l'analyse de l'utilisation entre str et Unicode dans le traitement de l'encodage Python

高洛峰

Mar 16, 2017 pm 04:23 PM

Utilisez python pour traiter le chinois, lors de la lecture de fichiers ou de messages, si des caractères tronqués (chaîne sont trouvés), lisez et écrivez des fichiers, print), ce que font la plupart des gens est d'appeler encode/decode pour le débogage sans réfléchir clairement à la raison pour laquelle les caractères tronqués apparaissent. Aujourd'hui, nous allons discuter de la façon de gérer les problèmes d'encodage.

Remarque : la discussion suivante concerne Python2. Erreur 2

Tout d'abord

doit avoir un concept général, comprendre le

Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe6 in position 0: ordinal not in range(128)

Copier après la connexion

jeu de caractères<.>, codage des caractères

ASCII | Unicode | UTF-8 etc.

Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode     return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 0-1: ordinal not in range(128)

Copier après la connexion

Notes sur le codage des caractères : ASCII, Unicode et UTF-8

str et unicode str et unicode sont tous deux des sous-classes de base

string

Il existe donc un moyen de déterminer s'il s'agit d'une chaîne

def is_str(s) : return isinstance (s, chaîne de base)

conversion str et unicode str -> decode('the_coding_of_str') -> unicode encode('the_coding_you_want') -> 🎜>

Différence

str est une chaîne d'octets, passée par unicode

Méthode de déclaration composée d'octets codés

Trouver la longueur (renvoie le nombre de octets)

unicode est le vrai sens Une chaîne composée de caractères

Méthode de déclaration

>>> s = ‘中文‘ s = u‘中文‘.encode(‘utf-8‘)  
>>> type(‘中文‘) <type ‘str‘>

Copier après la connexion

Trouver la longueur (retourner le nombre de caractères), quoi que vous voulez vraiment utiliser en logique

>>> u‘中文‘.encode(‘utf-8‘) ‘\xe4\xb8\xad\xe6\x96\x87‘ 
>>> len(u‘中文‘.encode(‘utf-8‘)) 
6

Copier après la connexion

Conclusion

Découvrez si vous souhaitez traiter str ou unicode, et utilisez la bonne méthode de traitement (str.decode/unicode.encode)

Voici la méthode pour déterminer si c'est unicode/str

>>> s = u‘中文‘ 
>>> s = ‘中文‘.decode(‘utf-8‘) 
>>> s = unicode(‘中文‘, ‘utf-8‘)  
>>> type(u‘中文‘) <type ‘unicode‘>

Copier après la connexion

Principe simple : n'utilisez pas encode pour str et n'utilisez pas decode pour unicode (en fait, str peut être encodé, voir la fin pour plus de détails. Pour garantir la simplicité, ce n'est pas recommandé)

>>> u‘中文‘ u‘\u4e2d\u6587‘ 
>>> len(u‘中文‘) 
2

Copier après la connexion

Conversion d'encodage différent, en utilisant Unicode comme encodage intermédiaire

le traitement de fichiers

>>> isinstance(u‘中文‘, unicode) True 
>>> isinstance(‘中文‘, unicode) False  
>>> isinstance(‘中文‘, str) True 
>>> isinstance(u‘中文‘, str) False

Copier après la connexion

, l'IDE et la console

flux de traitement, peuvent être utilisés comme ça, pensez à python comme un pool, Une entrée, une sortie

>>> ‘中文‘.encode(‘utf-8‘) 
Traceback (most recent call last): File "", line 1, in  UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe4 in position 0: ordinal not in range(128)  
>>> u‘中文‘.decode(‘utf-8‘) 
Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode     return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 0-1: ordinal not in range(128)

Copier après la connexion

A l'entrée, tout est converti en Unicode, au pool tout est traité en Unicode, à la sortie, il est converti en encodage cible (bien sûr, il y a des exceptions, et des encodages spécifiques doivent être utilisés dans la logique de traitement) )

#s是code_A的str s.decode(‘code_A‘).encode(‘code_B‘)

Copier après la connexion

Lire fichier Encodage d'entrée externe, décodage en Unicode Traitement (encodage interne, Unicode unifié) Encodage dans l'encodage cible requis Écrire dans la sortie cible (fichier ou console)

IDE et La console signale une erreur La raison est que lorsque. lors de l'impression, l'encodage est incompatible avec le propre encodage de l'EDI

Convertissez l'encodage en un encodage cohérent lors de la sortie et la sortie peut être normale. Encodage standard

Encodage uniforme pour éviter les caractères tronqués causés par un certain lien

Encodage d'environnement, IDE/texte

Éditeur

, encodage de fichiers, encodage de table de données de base de données

Assurer l'encodage du fichier source du code

Ceci est très important

>>> print u‘中文‘.encode(‘gbk‘) ???? 
>>> print u‘中文‘.encode(‘utf-8‘) 中文

Copier après la connexion

L'encodage par défaut du fichier py est ASCII Dans le fichier de code source, si des caractères non-ASCII sont utilisés, ils doivent l'être. encodé dans l'en-tête du fichier Document de déclaration

S'il n'est pas déclaré, des erreurs seront rencontrées lors de la saisie non-ASCII, qui doit être placé sur la première ou la deuxième ligne du fichier

Déclaration méthode

Si l'en-tête déclare coding=utf-8, a = 'Chinese', son encodage est utf-8

Si l'en-tête déclare coding=gb2312, a = 'Chinese ', son encodage est gbk

ainsi, tous les en-têtes de fichiers sources d'un même projet ont un encodage unifié, et l'encodage déclaré doit être cohérent avec l'encodage enregistré dans le fichier source (lié à l'éditeur)

est utilisé comme chaîne codée en dur pour le traitement dans le code source, utilisez uniformément Unicode

将其类型和源文件本身的编码隔离开, 独立无依赖方便流程中各个位置处理

if s == u‘中文‘:  #而不是 s == ‘中文‘     pass #注意这里 s到这里时，确保转为unicode

Copier après la connexion

以上几步搞定后，你只需要关注两个 unicode和你设定的编码(一般使用utf-8)

处理顺序

1. Decode early 2. Unicode everywhere 3. Encode later

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

3 Il y a quelques semaines By DDD

<🎜>: Dead Rails - Comment relever chaque défi

4 Il y a quelques semaines By DDD

Guide de l'atomfall: emplacements des articles, guides de quête et conseils

1 Il y a quelques mois By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7681

Tutoriel Java

1639

Tutoriel CakePHP

1393

Tutoriel Laravel

1286

Tutoriel PHP

1229

Afficher plus

Related knowledge

Comment résoudre le problème des autorisations rencontré lors de la visualisation de la version Python dans le terminal Linux? Apr 01, 2025 pm 05:09 PM

Solution aux problèmes d'autorisation Lors de la visualisation de la version Python dans Linux Terminal Lorsque vous essayez d'afficher la version Python dans Linux Terminal, entrez Python ...

Comment enseigner les bases de la programmation novice en informatique dans le projet et les méthodes axées sur les problèmes dans les 10 heures? Apr 02, 2025 am 07:18 AM

Comment enseigner les bases de la programmation novice en informatique dans les 10 heures? Si vous n'avez que 10 heures pour enseigner à l'informatique novice des connaissances en programmation, que choisissez-vous d'enseigner ...

Comment éviter d'être détecté par le navigateur lors de l'utilisation de Fiddler partout pour la lecture de l'homme au milieu? Apr 02, 2025 am 07:15 AM

Comment éviter d'être détecté lors de l'utilisation de FiddlereVerywhere pour les lectures d'homme dans le milieu lorsque vous utilisez FiddlereVerywhere ...

Comment copier efficacement la colonne entière d'une dataframe dans une autre dataframe avec différentes structures dans Python? Apr 01, 2025 pm 11:15 PM

Lorsque vous utilisez la bibliothèque Pandas de Python, comment copier des colonnes entières entre deux frames de données avec différentes structures est un problème courant. Supposons que nous ayons deux dats ...

Comment Uvicorn écoute-t-il en permanence les demandes HTTP sans servir_forever ()? Apr 01, 2025 pm 10:51 PM

Comment Uvicorn écoute-t-il en permanence les demandes HTTP? Uvicorn est un serveur Web léger basé sur ASGI. L'une de ses fonctions principales est d'écouter les demandes HTTP et de procéder ...

Comment créer dynamiquement un objet via une chaîne et appeler ses méthodes dans Python? Apr 01, 2025 pm 11:18 PM

Dans Python, comment créer dynamiquement un objet via une chaîne et appeler ses méthodes? Il s'agit d'une exigence de programmation courante, surtout si elle doit être configurée ou exécutée ...

Comment résoudre les problèmes d'autorisation lors de l'utilisation de la commande python --version dans le terminal Linux? Apr 02, 2025 am 06:36 AM

Utilisation de Python dans Linux Terminal ...

Comment obtenir des données d'information en contournant le mécanisme anti-frawler d'Investing.com? Apr 02, 2025 am 07:03 AM

Comprendre la stratégie anti-rampe d'investissement.com, Beaucoup de gens essaient souvent de ramper les données d'actualités sur Investing.com (https://cn.investing.com/news/latest-news) ...

See all articles