In diesem Artikel werden hauptsächlich relevante Informationen zum Durchlaufen von Python-Zeichenfolgen (einschließlich chinesischer Schriftzeichen) mit detaillierten Beispielen vorgestellt. Freunde, die diese benötigen, können sich auf
Python-Durchqueren von Zeichenfolgen (einschließlich chinesischer Schriftzeichen) mit detaillierten Beispielen beziehen
s = "中国china" for j in s: print j
Zunächst einmal: Wie lautet die Kodierung Ihres „a“? Es ist möglicherweise nicht das, was Sie denken: gbk
>>> a='中国' >>> a
Wenn es 6 Wörter enthält, bedeutet es utf-8. Wenn es 4 Wörter enthält, bedeutet es gbk.
Außerdem kann es nicht auf diese Weise durchlaufen werden, egal ob es sich um UTF-8 oder GBK handelt, da es hier Wort für Wort herausgenommen wird. Die virtuelle Maschine behandelt a als Zeichenfolge mit der Länge len(a).
Der nächste Schritt ist das Traversierungsproblem.
Die meisten Linux-Shells verwenden standardmäßig utf-8, daher besteht ein chinesisches Zeichen aus drei Zeichen, also müssen Sie sie drei mal drei lesen. Sie können Folgendes versuchen:
>>> a[:3]
Es kommt als Zeichen „中“ heraus
Der Standardbefehl von Windows ist cp936, also gbk. Ein chinesisches Zeichen besteht aus zwei Zeichen, also werden zwei Zeichen als zwei Zeichen gelesen (a[: 2]). .
Es gibt eine andere Möglichkeit zum Durchlaufen: Konvertieren Sie die Zeichenfolge in Unicode, sodass sowohl Chinesisch als auch Englisch ein Wort sind, und Sie können Ihr for i in einer Methode zum Durchlaufen verwenden. Dies hat den Vorteil, dass chinesische und englische Zeichen alle ein Wort sind, während in utf-8 und gbk die englischen Buchstaben nur ein Wort einnehmen.
s = u"中国china" for j in s: print j
Die Ausgabe ist wie folgt:
中 国 c h i n a
Das obige ist der detaillierte Inhalt vonTeilen Sie eine Methode zum Durchlaufen von Zeichenfolgen (einschließlich chinesischer Zeichen) mit Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!