Ein guter Artikel über STR und UNICODE
Organisation des Inhalts im Zusammenhang mit der Python-Codierung
Hinweis: Die folgende Diskussion gilt für die Python2.x-Version, Py3k soll ausprobiert werden
Start
Wenn ich Python verwende, um Chinesisch zu verarbeiten, Dateien oder Nachrichten, http-Parameter usw. zu lesen.
Sobald ich es ausführe, sind die Zeichen verstümmelt gefunden werden (String-Verarbeitung, Lesen einer Datei schreiben, drucken)
Dann rufen die meisten Leute zum Debuggen Encode/Decode auf, ohne genau darüber nachzudenken, warum verstümmelte Zeichen erscheinen
Also das häufigste Fehler beim Debuggen
Fehler 1
Traceback (letzter Aufruf zuletzt): Datei „
Fehler 2
Traceback (letzter Aufruf zuletzt): Datei „
Zunächst einmal
Sie müssen ein allgemeines Konzept haben, den Zeichensatz und die Zeichenkodierung verstehen
ASCII Unicode | -8 |. usw.
Hinweise zur Zeichenkodierung: ASCII, Unicode und UTF-8
Taobao Search Technology Blog – Chinese Coding Talk
str und unicode
sowohl str als auch unicode Es ist eine Unterklasse von basestring
, daher gibt es eine Methode, um zu bestimmen, ob es sich um einen String handelt
def is_str(s) : isinstance(s, basestring) zurückgeben
str und Unicode-Konvertierung
Dokument dekodieren
Dokument kodieren
str -> decode('the_coding_of_str') -> encode('the_coding_you_want') -> str
Deklarationsmethode bestehend aus Bytes
s = 'Chinese' s = u'中文'.encode('utf-8' ) >>> type( 'Chinese')
Ermitteln Sie die Länge (geben Sie die Anzahl der Bytes zurück)
>>> u'中文'.encode('utf-8') 'xe4xb8xadxe6x96x87' >>> len(u'中文'.encode('utf-8')) 6
nur Unicode Es ist eine Zeichenfolge im eigentlichen Sinne, bestehend aus Zeichen
Deklarationsmethode
s = u'中文' s = '中文'.decode('utf -8') s = unicode('Chinese', 'utf-8') >>> type(u'Chinese')
Finden Sie die Länge (geben Sie die Anzahl der Zeichen zurück), die Sie wirklich in der Logik verwenden möchten
>>>中文' u'u4e2du6587' >>> len(u' Chinese') 2
Fazit
Das Folgende ist eine Methode, um zu bestimmen, ob es sich um Unicode/str handelt
>> > isinstance(u'中文', unicode) True >>> False >>> True isinstance( u'中文', str) FalschEinfaches Prinzip: Verwenden Sie nicht encode für str, verwenden Sie nicht decode für Unicode (tatsächlich können Sie str codieren, siehe Ende für Details. Zu sorgen Sie für Einfachheit, es wird nicht empfohlen)
>>> 'Chinese'.encode(' utf-8') Traceback (letzter Aufruf zuletzt): Datei „
Unterschiedliche Kodierungskonvertierung, Unicode als Zwischenkodierung verwenden
#s ist die Zeichenfolge von code_A.encode('code_B')
Dateiverarbeitung, IDE und Konsole Der Verarbeitungsablauf kann so verwendet werden. Stellen Sie sich Python als Pool vor, ein Eingang, ein Ausgang
Dateien lesen, externe Eingabekodierung, in Unicode dekodieren, verarbeiten (interne Kodierung, einheitlicher Unicode), in die erforderliche Zielkodierung kodieren, in die Zielausgabe (Datei oder Konsole) schreiben
IDE und steuern Der Grund dafür ist, dass die Codierung beim Drucken nicht mit der eigenen Codierung der IDE übereinstimmt. Konvertieren Sie bei der Ausgabe die Codierung in eine konsistente und die Ausgabe kann normal sein 🎜>>>> print u'中文'.encode('gbk') ???? >>> print u'中文'.encode('utf-8') 中文>
Es wird empfohlen, die Kodierung zu standardisieren
Kodierung zu standardisieren
Kodierung zu vereinheitlichen, um verstümmelte Codes zu verhindern, die durch verursacht werden ein bestimmter Link
Umgebungscodierung, IDE/Texteditor, Dateicodierung, Datenbanktabellencodierung
Kodierung der Codequelldatei sicherstellen
Das ist sehr wichtig
Die Standardkodierung von py-Dateien ist ASCII. Wenn in der Quellcodedatei Nicht-ASCII-Zeichen verwendet werden, muss eine Kodierungsdeklaration erfolgen im Header der Datei erstellt
Wenn nicht deklariert, führt die Eingabe von Nicht-ASCII zu Fehlern, die in der ersten oder zweiten Zeile der Datei platziert werden müssenDatei „XXX.py“ , Zeile 3 SyntaxError: Nicht-ASCII-Zeichen „xd6“ in Datei c.py in Zeile 3, aber keine Codierung deklariert, siehe http://www.php.cn/ für Details Deklarationsmethode
# -*- Kodierung: utf-8 -*- oder #coding=utf-8
Wenn der Header Kodierung=utf-8 deklariert, a = 'Chinesisch' Codierung ist utf-8
Wenn der Header „coding=gb2312“ deklariert, wird a = „Chinesisch“ als gbk codiertalso haben alle Quelldatei-Header im selben Projekt die gleiche Codierung und Die deklarierte Kodierung muss mit der in der Quelldatei gespeicherten Kodierung übereinstimmen (bezogen auf den Editor).
Nach Abschluss der obigen Schritte müssen Sie nur noch auf zwei Unicodes achten Und die von Ihnen festgelegte Codierung (normalerweise verwenden). utf-8)
Verarbeitungsreihenfolge1. Früh dekodieren 2. Unicode überall 3. Später kodieren
Verwandte Module und einige Methoden
Erhalten und legen Sie die Systemstandardkodierung fest
>>> import sys >>> reload(sys)str.encode('other_coding')
Codieren Sie in Python einen bestimmten Codierungs-Str direkt in einen anderen Codierungs-Str
#str_A ist utf-8 str_A.encode('gbk ') Die ausgeführte Operation ist str_A.decode('sys_codec').encode('gbk') Hier ist sys_codec die Codierung von sys.getdefaultencoding() im vorherigen Schritt
'Abrufen und Festlegen der „System-Standardkodierung“ hängt hier mit str.encode zusammen, aber ich verwende sie selten auf diese Weise, hauptsächlich weil es sich kompliziert und unkontrollierbar anfühlt oder es einfacher ist, klare Dekodierung einzugeben und klare Kodierung auszugeben. Einige (persönliche Meinungen)
chardet
Dateikodierungserkennung, herunterladen
>>> import chardet >>> ) >>> result = chardet.detect(f.read()) >>> result {'confidence': 0.99, 'encoding': 'utf-8 '}
u-Zeichenfolge zu entsprechender Unicode-Zeichenfolge
>>> u'中' u'u4e2d' >>> ; s = 'u4e2d' >>> ; print s.decode('unicode_escape') in >>> ) u'u4feeu6539u8282u70b9u72b6u6001u6210u529f'Das Obige ist die Sammlung von Informationen zur Python-Codierungsverarbeitung. Wir werden in Zukunft weiterhin relevante Informationen hinzufügen.