Heim Backend-Entwicklung Python-Tutorial Python-Codierung processing-str und Unicode

Python-Codierung processing-str und Unicode

Feb 27, 2017 am 10:02 AM
python Kodierungsprozess

Ein guter Artikel über STR und UNICODE

Organisation des Inhalts im Zusammenhang mit der Python-Codierung

Hinweis: Die folgende Diskussion gilt für die Python2.x-Version, Py3k soll ausprobiert werden

Start

Wenn ich Python verwende, um Chinesisch zu verarbeiten, Dateien oder Nachrichten, http-Parameter usw. zu lesen.

Sobald ich es ausführe, sind die Zeichen verstümmelt gefunden werden (String-Verarbeitung, Lesen einer Datei schreiben, drucken)

Dann rufen die meisten Leute zum Debuggen Encode/Decode auf, ohne genau darüber nachzudenken, warum verstümmelte Zeichen erscheinen

Also das häufigste Fehler beim Debuggen

Fehler 1

Traceback (letzter Aufruf zuletzt): Datei „“, Zeile 1, in < module> UnicodeDecodeError: 'ASCII'-Codec kann Byte 0xe6 in Position 0 nicht dekodieren: Ordnungszahl nicht im Bereich (128)

Fehler 2

Traceback (letzter Aufruf zuletzt): Datei „“, Zeile 1, in der Datei „/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7“. /encodings/utf_8.py", Zeile 16, in dekodierter Rückgabe codecs.utf_8_decode(input,errors, True) UnicodeEncodeError: 'ASCII'-Codec kann Zeichen an Position 0-1 nicht kodieren: Ordinalzahl nicht im Bereich (128)

Zunächst einmal

Sie müssen ein allgemeines Konzept haben, den Zeichensatz und die Zeichenkodierung verstehen

ASCII Unicode | -8 |. usw.

Hinweise zur Zeichenkodierung: ASCII, Unicode und UTF-8

Taobao Search Technology Blog – Chinese Coding Talk

str und unicode

sowohl str als auch unicode Es ist eine Unterklasse von basestring

, daher gibt es eine Methode, um zu bestimmen, ob es sich um einen String handelt

def is_str(s) : isinstance(s, basestring) zurückgeben

str und Unicode-Konvertierung

Dokument dekodieren

Dokument kodieren

str -> decode('the_coding_of_str') -> encode('the_coding_you_want') -> str

str ist eine Bytefolge, codiert durch Unicode

Deklarationsmethode bestehend aus Bytes

s = 'Chinese' s = u'中文'.encode('utf-8' ) >>> type( 'Chinese')

Ermitteln Sie die Länge (geben Sie die Anzahl der Bytes zurück)
>>> u'中文'.encode('utf-8') 'xe4xb8xadxe6x96x87' >>> len(u'中文'.encode('utf-8')) 6

nur Unicode Es ist eine Zeichenfolge im eigentlichen Sinne, bestehend aus Zeichen
Deklarationsmethode

s = u'中文' s = '中文'.decode('utf -8') s = unicode('Chinese', 'utf-8') >>> type(u'Chinese')

Finden Sie die Länge (geben Sie die Anzahl der Zeichen zurück), die Sie wirklich in der Logik verwenden möchten
>>>中文' u'u4e2du6587' >>> len(u' Chinese') 2

Fazit

Finden Sie heraus, ob Sie möchten um str oder Unicode zu verarbeiten und die richtige Verarbeitungsmethode zu verwenden (str.decode/unicode .encode)

Das Folgende ist eine Methode, um zu bestimmen, ob es sich um Unicode/str handelt

>> > isinstance(u'中文', unicode) True >>> False >>> True isinstance( u'中文', str) Falsch

Einfaches Prinzip: Verwenden Sie nicht encode für str, verwenden Sie nicht decode für Unicode (tatsächlich können Sie str codieren, siehe Ende für Details. Zu sorgen Sie für Einfachheit, es wird nicht empfohlen)

>>> 'Chinese'.encode(' utf-8') Traceback (letzter Aufruf zuletzt): Datei „“, Zeile 1 , in UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range( 128) >>> u'中文'.decode('utf-8') Traceback ( letzter Aufruf zuletzt): Datei „“, Zeile 1, in der Datei „/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py“. ", Zeile 16, bei der Dekodierung wird codecs.utf_8_decode(input,errors, True) zurückgegeben UnicodeEncodeError: 'ASCII'-Codec kann Zeichen an Position 0-1 nicht kodieren: Ordinalzahl nicht im Bereich (128)

Unterschiedliche Kodierungskonvertierung, Unicode als Zwischenkodierung verwenden


#s ist die Zeichenfolge von code_A.encode('code_B')

Dateiverarbeitung, IDE und Konsole Der Verarbeitungsablauf kann so verwendet werden. Stellen Sie sich Python als Pool vor, ein Eingang, ein Ausgang

Am Eingang wird alles in konvertiert Unicode, am Ausgang wird alles in Unicode konvertiert und am Ausgang wird es in die Zielkodierung konvertiert (natürlich gibt es Ausnahmen, die spezifische Kodierung muss in der Verarbeitungslogiksituation verwendet werden)

Dateien lesen, externe Eingabekodierung, in Unicode dekodieren, verarbeiten (interne Kodierung, einheitlicher Unicode), in die erforderliche Zielkodierung kodieren, in die Zielausgabe (Datei oder Konsole) schreiben

IDE und steuern Der Grund dafür ist, dass die Codierung beim Drucken nicht mit der eigenen Codierung der IDE übereinstimmt. Konvertieren Sie bei der Ausgabe die Codierung in eine konsistente und die Ausgabe kann normal sein 🎜>>>> print u'中文'.encode('gbk') ???? >>> print u'中文'.encode('utf-8') 中文>

Es wird empfohlen, die Kodierung zu standardisieren


Kodierung zu standardisieren

Kodierung zu vereinheitlichen, um verstümmelte Codes zu verhindern, die durch verursacht werden ein bestimmter Link

Umgebungscodierung, IDE/Texteditor, Dateicodierung, Datenbanktabellencodierung

Kodierung der Codequelldatei sicherstellen

Das ist sehr wichtig

Die Standardkodierung von py-Dateien ist ASCII. Wenn in der Quellcodedatei Nicht-ASCII-Zeichen verwendet werden, muss eine Kodierungsdeklaration erfolgen im Header der Datei erstellt

Wenn nicht deklariert, führt die Eingabe von Nicht-ASCII zu Fehlern, die in der ersten oder zweiten Zeile der Datei platziert werden müssen

Datei „XXX.py“ , Zeile 3 SyntaxError: Nicht-ASCII-Zeichen „xd6“ in Datei c.py in Zeile 3, aber keine Codierung deklariert, siehe http://www.php.cn/ für Details Deklarationsmethode

# -*- Kodierung: utf-8 -*- oder #coding=utf-8


Wenn der Header Kodierung=utf-8 deklariert, a = 'Chinesisch' Codierung ist utf-8

Wenn der Header „coding=gb2312“ deklariert, wird a = „Chinesisch“ als gbk codiertalso haben alle Quelldatei-Header im selben Projekt die gleiche Codierung und Die deklarierte Kodierung muss mit der in der Quelldatei gespeicherten Kodierung übereinstimmen (bezogen auf den Editor).

Der Quellcode wird als fest codierte Zeichenfolge für die Verarbeitung verwendet.

wird zur Isolierung verwendet Sein Typ hängt von der Kodierung der Quelldatei selbst ab und weist keine Abhängigkeiten auf, um die Verarbeitung an verschiedenen Stellen im Prozess zu erleichtern.中文' pass #Beachten Sie, dass, wenn s hierher kommt, unbedingt in Unicode konvertiert werden muss

Nach Abschluss der obigen Schritte müssen Sie nur noch auf zwei Unicodes achten Und die von Ihnen festgelegte Codierung (normalerweise verwenden). utf-8)

Verarbeitungsreihenfolge

1. Früh dekodieren 2. Unicode überall 3. Später kodieren

Verwandte Module und einige Methoden

Erhalten und legen Sie die Systemstandardkodierung fest

>>> import sys >>> reload(sys) sys.setdefaultencoding('utf-8') >>> sys.getdefaultencoding () 'utf-8'

str.encode('other_coding')

Codieren Sie in Python einen bestimmten Codierungs-Str direkt in einen anderen Codierungs-Str

#str_A ist utf-8 str_A.encode('gbk ') Die ausgeführte Operation ist str_A.decode('sys_codec').encode('gbk') Hier ist sys_codec die Codierung von sys.getdefaultencoding() im vorherigen Schritt

'Abrufen und Festlegen der „System-Standardkodierung“ hängt hier mit str.encode zusammen, aber ich verwende sie selten auf diese Weise, hauptsächlich weil es sich kompliziert und unkontrollierbar anfühlt oder es einfacher ist, klare Dekodierung einzugeben und klare Kodierung auszugeben. Einige (persönliche Meinungen)
chardet

Dateikodierungserkennung, herunterladen


>>> import chardet >>> ) >>> result = chardet.detect(f.read()) >>> result {'confidence': 0.99, 'encoding': 'utf-8 '}

u-Zeichenfolge zu entsprechender Unicode-Zeichenfolge

>>> u'中' u'u4e2d' >>> ; s = 'u4e2d' >>> ; print s.decode('unicode_escape') in >>> ) u'u4feeu6539u8282u70b9u72b6u6001u6210u529f'

Das Obige ist die Sammlung von Informationen zur Python-Codierungsverarbeitung. Wir werden in Zukunft weiterhin relevante Informationen hinzufügen.

Weitere Artikel zu Python Encoding Processing-Str und Unicode finden Sie auf der chinesischen PHP-Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Chat -Befehle und wie man sie benutzt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

So verwenden Sie Debian Apache -Protokolle, um die Website der Website zu verbessern So verwenden Sie Debian Apache -Protokolle, um die Website der Website zu verbessern Apr 12, 2025 pm 11:36 PM

In diesem Artikel wird erläutert, wie die Leistung der Website verbessert wird, indem Apache -Protokolle im Debian -System analysiert werden. 1. Log -Analyse -Basics Apache Protokoll Datensätze Die detaillierten Informationen aller HTTP -Anforderungen, einschließlich IP -Adresse, Zeitstempel, URL, HTTP -Methode und Antwortcode. In Debian -Systemen befinden sich diese Protokolle normalerweise in /var/log/apache2/access.log und /var/log/apache2/error.log verzeichnis. Das Verständnis der Protokollstruktur ist der erste Schritt in der effektiven Analyse. 2. Tool mit Protokollanalyse Mit einer Vielzahl von Tools können Apache -Protokolle analysiert: Befehlszeilen -Tools: GREP, AWK, SED und andere Befehlszeilen -Tools.

Python: Spiele, GUIs und mehr Python: Spiele, GUIs und mehr Apr 13, 2025 am 12:14 AM

Python zeichnet sich in Gaming und GUI -Entwicklung aus. 1) Spielentwicklung verwendet Pygame, die Zeichnungen, Audio- und andere Funktionen bereitstellt, die für die Erstellung von 2D -Spielen geeignet sind. 2) Die GUI -Entwicklung kann Tkinter oder Pyqt auswählen. Tkinter ist einfach und einfach zu bedienen. PYQT hat reichhaltige Funktionen und ist für die berufliche Entwicklung geeignet.

PHP und Python: Vergleich von zwei beliebten Programmiersprachen PHP und Python: Vergleich von zwei beliebten Programmiersprachen Apr 14, 2025 am 12:13 AM

PHP und Python haben jeweils ihre eigenen Vorteile und wählen nach den Projektanforderungen. 1.PHP ist für die Webentwicklung geeignet, insbesondere für die schnelle Entwicklung und Wartung von Websites. 2. Python eignet sich für Datenwissenschaft, maschinelles Lernen und künstliche Intelligenz mit prägnanter Syntax und für Anfänger.

Wie Debian Readdir sich in andere Tools integriert Wie Debian Readdir sich in andere Tools integriert Apr 13, 2025 am 09:42 AM

Die Readdir -Funktion im Debian -System ist ein Systemaufruf, der zum Lesen des Verzeichnisgehalts verwendet wird und häufig in der C -Programmierung verwendet wird. In diesem Artikel wird erläutert, wie Readdir in andere Tools integriert wird, um seine Funktionalität zu verbessern. Methode 1: Kombinieren Sie C -Sprachprogramm und Pipeline zuerst ein C -Programm, um die Funktion der Readdir aufzurufen und das Ergebnis auszugeben:#include#include#includeIntmain (intargc, char*argv []) {Dir*Dir; structDirent*Eintrag; if (argc! = 2) {{

Die Rolle von Debian Sniffer bei der DDOS -Angriffserkennung Die Rolle von Debian Sniffer bei der DDOS -Angriffserkennung Apr 12, 2025 pm 10:42 PM

In diesem Artikel wird die DDOS -Angriffserkennungsmethode erörtert. Obwohl kein direkter Antragsfall von "Debiansniffer" gefunden wurde, können die folgenden Methoden zur Erkennung von DDOS -Angriffsanfällen verwendet werden: Effektive DDOS -Angriffserkennungstechnologie: Erkennung auf der Grundlage der Verkehrsanalyse: Identifizierung von DDOS -Angriffen durch Überwachung abnormaler Muster des Netzwerkverkehrs, z. Beispielsweise können Python -Skripte in Kombination mit Pyshark- und Colorama -Bibliotheken den Netzwerkverkehr in Echtzeit überwachen und Warnungen ausstellen. Erkennung auf der Grundlage der statistischen Analyse: Durch Analyse statistischer Merkmale des Netzwerkverkehrs wie Daten

Python und Zeit: Machen Sie das Beste aus Ihrer Studienzeit Python und Zeit: Machen Sie das Beste aus Ihrer Studienzeit Apr 14, 2025 am 12:02 AM

Um die Effizienz des Lernens von Python in einer begrenzten Zeit zu maximieren, können Sie Pythons DateTime-, Zeit- und Zeitplanmodule verwenden. 1. Das DateTime -Modul wird verwendet, um die Lernzeit aufzuzeichnen und zu planen. 2. Das Zeitmodul hilft, die Studie zu setzen und Zeit zu ruhen. 3. Das Zeitplanmodul arrangiert automatisch wöchentliche Lernaufgaben.

Nginx SSL -Zertifikat -Aktualisierung Debian Tutorial Nginx SSL -Zertifikat -Aktualisierung Debian Tutorial Apr 13, 2025 am 07:21 AM

In diesem Artikel werden Sie begleitet, wie Sie Ihr NginXSSL -Zertifikat auf Ihrem Debian -System aktualisieren. Schritt 1: Installieren Sie zuerst CertBot und stellen Sie sicher, dass Ihr System Certbot- und Python3-CertBot-Nginx-Pakete installiert hat. If not installed, please execute the following command: sudoapt-getupdatesudoapt-getinstallcertbotpython3-certbot-nginx Step 2: Obtain and configure the certificate Use the certbot command to obtain the Let'sEncrypt certificate and configure Nginx: sudocertbot--nginx Follow the prompts to select

So konfigurieren Sie den HTTPS -Server in Debian OpenSSL So konfigurieren Sie den HTTPS -Server in Debian OpenSSL Apr 13, 2025 am 11:03 AM

Das Konfigurieren eines HTTPS -Servers auf einem Debian -System umfasst mehrere Schritte, einschließlich der Installation der erforderlichen Software, der Generierung eines SSL -Zertifikats und der Konfiguration eines Webservers (z. B. Apache oder NGINX) für die Verwendung eines SSL -Zertifikats. Hier ist eine grundlegende Anleitung unter der Annahme, dass Sie einen Apacheweb -Server verwenden. 1. Installieren Sie zuerst die erforderliche Software, stellen Sie sicher, dass Ihr System auf dem neuesten Stand ist, und installieren Sie Apache und OpenSSL: sudoaptupdatesudoaptupgradesudoaptinsta

See all articles