Detaillierte Erläuterung der Unterschiede und Nutzungsanalyse zwischen str und Unicode bei der Python-Codierungsverarbeitung-Python-Tutorial-php.cn

Inhaltsverzeichnis

def is_str(s): return isinstance (s, Basiszeichenfolge)

Wenn nicht deklariert, treten bei der Eingabe von Nicht-ASCII-Dateien Fehler auf, die in der ersten oder zweiten Zeile der Datei

Heim

Backend-Entwicklung

Python-Tutorial

Detaillierte Erläuterung der Unterschiede und Nutzungsanalyse zwischen str und Unicode bei der Python-Codierungsverarbeitung

高洛峰

Mar 16, 2017 pm 04:23 PM

Verwenden Sie Python, um Chinesisch zu verarbeiten, beim Lesen von Dateien oder Nachrichten, wenn verstümmelte Zeichen (Zeichenfolge gefunden werden), Dateien lesen und schreiben, print), was die meisten Leute zum Debuggen aufrufen, ohne explizit darüber nachzudenken, warum verstümmelte Zeichen auftreten. Heute werden wir besprechen, wie man mit Codierungsproblemen umgeht.

Hinweis: Die folgende Diskussion bezieht sich auf Python2.

Zunächst einmal

muss ein allgemeines Konzept vorliegen und den

Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe6 in position 0: ordinal not in range(128)

Nach dem Login kopieren

Zeichensatz, Zeichenkodierung

Unicode |.

Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode     return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 0-1: ordinal not in range(128)

Nach dem Login kopieren

Hinweise zur Zeichenkodierung: ASCII, Unicode und UTF-8

str und unicode str und unicode sind beide Unterklassen von base

string

Es gibt also eine Möglichkeit zu bestimmen, ob es sich um einen String handelt

def is_str(s): return isinstance (s, Basiszeichenfolge)

str und Unicode-Konvertierung str -> unicode unicode -> encode('the_coding_you_want') -> 🎜>

Differenz

str ist eine Bytefolge, die von Unicode übergeben wird

Deklarationsmethode bestehend aus codierten Bytes

Ermitteln Sie die Länge (geben Sie die Anzahl zurück). Bytes)

Unicode ist die wahre Bedeutung Eine Zeichenfolge bestehend aus Zeichen

Deklarationsmethode

>>> s = ‘中文‘ s = u‘中文‘.encode(‘utf-8‘)  
>>> type(‘中文‘) <type ‘str‘>

Nach dem Login kopieren

Finden Sie die Länge (geben Sie die Anzahl der Zeichen zurück), was Sie möchten wirklich in der Logik verwenden

>>> u‘中文‘.encode(‘utf-8‘) ‘\xe4\xb8\xad\xe6\x96\x87‘ 
>>> len(u‘中文‘.encode(‘utf-8‘)) 
6

Nach dem Login kopieren

Fazit

Finden Sie heraus, ob Sie str oder Unicode verarbeiten möchten, und verwenden Sie die richtige Verarbeitungsmethode (str.decode/unicode.encode)

Das Folgende ist die Methode, um festzustellen, ob es Unicode/str ist

>>> s = u‘中文‘ 
>>> s = ‘中文‘.decode(‘utf-8‘) 
>>> s = unicode(‘中文‘, ‘utf-8‘)  
>>> type(u‘中文‘) <type ‘unicode‘>

Nach dem Login kopieren

Einfaches Prinzip: Verwenden Sie nicht encode für str und nicht decode für Unicode (tatsächlich ist str kann codiert werden, Einzelheiten siehe am Ende. Aus Gründen der Einfachheit wird dies nicht empfohlen Dateiverarbeitung

>>> u‘中文‘ u‘\u4e2d\u6587‘ 
>>> len(u‘中文‘) 
2

Nach dem Login kopieren

, IDE und Konsole

Verarbeitungsablauf, kann so verwendet werden, stellen Sie sich Python als Pool vor, ein Eingang, ein Ausgang

Am Eingang wird alles in konvertiert Unicode, am Pool wird alles mit Unicode verarbeitet, am Ausgang wird es in die Zielkodierung konvertiert (natürlich gibt es Ausnahmen und in der Verarbeitungslogik müssen bestimmte Kodierungen verwendet werden) )

Lesen Datei Externe Eingabekodierung, in Unicode dekodieren Verarbeitung (interne Kodierung, einheitlicher Unicode) In die erforderliche Zielkodierung kodieren In Zielausgabe (Datei oder Konsole) schreiben

>>> isinstance(u‘中文‘, unicode) True 
>>> isinstance(‘中文‘, unicode) False  
>>> isinstance(‘中文‘, str) True 
>>> isinstance(u‘中文‘, str) False

Nach dem Login kopieren

IDE und Die Konsole meldet einen Fehler Beim Drucken stimmt die Kodierung nicht mit der IDE-eigenen Kodierung überein.

>>> ‘中文‘.encode(‘utf-8‘) 
Traceback (most recent call last): File "", line 1, in  UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe4 in position 0: ordinal not in range(128)  
>>> u‘中文‘.decode(‘utf-8‘) 
Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode     return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 0-1: ordinal not in range(128)

Nach dem Login kopieren

Konvertieren Sie die Kodierung bei der Ausgabe in eine konsistente, und die Ausgabe kann normal sein

#s是code_A的str s.decode(‘code_A‘).encode(‘code_B‘)

Nach dem Login kopieren

Vorschlag

Standardkodierung

Einheitliche Kodierung, um durch einen bestimmten Link verursachte verstümmelte Zeichen zu verhindern

Umgebungskodierung, IDE/Text

Editor

, Dateikodierung, Datenbankdatentabellenkodierung

Stellen Sie die Kodierung der Codequelldatei sicher

Dies ist sehr wichtig

Die Standardkodierung der py-Datei ist ASCII. Wenn in der Quellcodedatei Nicht-ASCII-Zeichen verwendet werden, müssen diese verwendet werden im Dateikopf codiert Deklarationsdokument

>>> print u‘中文‘.encode(‘gbk‘) ???? 
>>> print u‘中文‘.encode(‘utf-8‘) 中文

Nach dem Login kopieren

Wenn nicht deklariert, treten bei der Eingabe von Nicht-ASCII-Dateien Fehler auf, die in der ersten oder zweiten Zeile der Datei

Deklaration platziert werden müssen Methode

Wenn der Header „coding=utf-8, a = ‚Chinese‘“ deklariert, ist seine Codierung utf-8Wenn der Header „coding=gb2312, a = „Chinese“ deklariert ', seine Kodierung ist gbk

also haben alle Quelldatei-Header im selben Projekt eine einheitliche Kodierung, und die deklarierte Kodierung muss mit der in der Quelldatei gespeicherten Kodierung übereinstimmen (bezogen auf den Editor)

wird als hartcodierte Zeichenfolge für die Verarbeitung im Quellcode verwendet, einheitlich Unicode verwenden

将其类型和源文件本身的编码隔离开, 独立无依赖方便流程中各个位置处理

if s == u‘中文‘:  #而不是 s == ‘中文‘     pass #注意这里 s到这里时，确保转为unicode

Nach dem Login kopieren

以上几步搞定后，你只需要关注两个 unicode和你设定的编码(一般使用utf-8)

处理顺序

1. Decode early 2. Unicode everywhere 3. Encode later

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

4 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

3 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

4 Wochen vor By DDD

<🎜>: Dead Rails - wie man jede Herausforderung abschließt

1 Monate vor By DDD

Atomfall Guide: Gegenstandsstandorte, Questführer und Tipps

1 Monate vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7695

Java-Tutorial

1640

CakePHP-Tutorial

1393

Laravel-Tutorial

1287

PHP-Tutorial

1229

Related knowledge

Wie löste ich das Problem der Berechtigungen beim Betrachten der Python -Version in Linux Terminal? Apr 01, 2025 pm 05:09 PM

Lösung für Erlaubnisprobleme beim Betrachten der Python -Version in Linux Terminal Wenn Sie versuchen, die Python -Version in Linux Terminal anzuzeigen, geben Sie Python ein ...

Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer-Anfänger-Programmierbasis in Projekt- und problemorientierten Methoden? Apr 02, 2025 am 07:18 AM

Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer -Anfänger für Programmierungen? Wenn Sie nur 10 Stunden Zeit haben, um Computer -Anfänger zu unterrichten, was Sie mit Programmierkenntnissen unterrichten möchten, was würden Sie dann beibringen ...

Wie kann man vom Browser vermeiden, wenn man überall Fiddler für das Lesen des Menschen in der Mitte verwendet? Apr 02, 2025 am 07:15 AM

Wie kann man nicht erkannt werden, wenn Sie Fiddlereverywhere für Man-in-the-Middle-Lesungen verwenden, wenn Sie FiddLereverywhere verwenden ...

Wie kann ich die gesamte Spalte eines Datenrahmens effizient in einen anderen Datenrahmen mit verschiedenen Strukturen in Python kopieren? Apr 01, 2025 pm 11:15 PM

Bei der Verwendung von Pythons Pandas -Bibliothek ist das Kopieren von ganzen Spalten zwischen zwei Datenrahmen mit unterschiedlichen Strukturen ein häufiges Problem. Angenommen, wir haben zwei Daten ...

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen ohne Serving_forver () an? Apr 01, 2025 pm 10:51 PM

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen an? Uvicorn ist ein leichter Webserver, der auf ASGI basiert. Eine seiner Kernfunktionen ist es, auf HTTP -Anfragen zu hören und weiterzumachen ...

Wie behandle ich die mit Kommas getrennten Listen-Abfrageparameter in Fastapi? Apr 02, 2025 am 06:51 AM

Fastapi ...

Wie bekomme ich Nachrichtendaten, die den Anti-Crawler-Mechanismus von Investing.com umgehen? Apr 02, 2025 am 07:03 AM

Verständnis der Anti-Crawling-Strategie von Investing.com Viele Menschen versuchen oft, Nachrichten von Investing.com (https://cn.investing.com/news/latest-news) zu kriechen ...

Wie erstelle ich dynamisch ein Objekt über eine Zeichenfolge und rufe seine Methoden in Python auf? Apr 01, 2025 pm 11:18 PM

Wie erstellt in Python ein Objekt dynamisch über eine Zeichenfolge und ruft seine Methoden auf? Dies ist eine häufige Programmieranforderung, insbesondere wenn sie konfiguriert oder ausgeführt werden muss ...

See all articles