Ausführliche Erläuterung der String-Operationen und der Unicode-Codierung in Python

Heim

Backend-Entwicklung

Python-Tutorial

Ausführliche Erläuterung der String-Operationen und der Unicode-Codierung in Python_

高洛峰

Feb 21, 2017 am 10:12 AM

Tatsächlich sind Strings auch ein Datentyp. Strings sind jedoch insofern etwas Besonderes, als es ein Codierungsproblem gibt. Der folgende Artikel führt Sie hauptsächlich in die relevanten Informationen zu String-Operationen und der Codierung von Unicode in Python ein. Lassen Sie uns gemeinsam einen Blick darauf werfen.

Dieser Artikel vermittelt Ihnen hauptsächlich etwas Wissen über String-Operationen und die Codierung von Unicode in Python. Ich werde im Folgenden nicht viel sagen. Freunde, die es brauchen, können zusammenkommen.

String-Typ

str: Unicode-String. Mit '' oder r'' erstellte Zeichenfolgen sind alle str, und einfache Anführungszeichen können durch doppelte oder dreifache Anführungszeichen ersetzt werden. Unabhängig davon, wie Sie es angeben, gibt es keinen Unterschied, wenn es intern in Python gespeichert wird.

bytes: Binärzeichenfolge. Da Dateien in anderen Formaten wie JPG nicht mit str angezeigt werden können, werden sie durch Bytes dargestellt. Jedes Byte ist eine Zahl von 0 bis 255. Beim Drucken zeigt Python den Teil, der in ASCII ausgedrückt werden kann, als ASCII an, was die Lesbarkeit erleichtert. bytes unterstützt fast alle str-Methoden außer der Formatierung, einschließlich des re-Moduls

bytearray() : eine Binärzeichenfolge, die an Ort und Stelle geändert werden kann.

utf-8-Kodierungsbereich

范围	字节数	存储格式
0x0000~0x007F (0 ~ 127)	1字节	0xxxxxxx
0x0080~0x07FF(128 ~ 2047)	2字节	110xxxxx 10xxxxxx
0x0800~FFFF(2048 ~ 65535)	3字节	1110xxxx 10xxxxxx 10xxxxxx
0x10000~1FFFFFF(65536 ~ 2097152)	4字节	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0x2000000~0x3FFFFFF	5字节	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0x4000000~0x7FFFFFFF)	6字节	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

Byte Order Mark BOM

BOM Is die Abkürzung für Byte Order Marker,

Gibt die Regeln an, wenn die Codierung geschrieben wird

Python schreibt keine BOM, wenn Dateien mit dem Codierungsheader „utf-8“ geschrieben werden, aber Durch die Angabe der Codierung „utf-8-sig“ wird Python gezwungen, einen BOM-Header zu schreiben.

Bei Verwendung von „utf-16-be“ wird kein Stücklistenkopf geschrieben, bei Verwendung von „utf-16“ wird jedoch ein Stücklistenkopf geschrieben.

>>> open(&#39;h.txt&#39;,&#39;w&#39;,encoding=&#39;utf-8-sig&#39;).write(&#39;aaa&#39;)
3
>>> open(&#39;h.txt&#39;,&#39;rb&#39;).read()
b&#39;\xef\xbb\xbfaaa&#39;
>>> open(&#39;h.txt&#39;,&#39;w&#39;,encoding=&#39;utf-16&#39;).write(&#39;bbb&#39;)
3
>>> open(&#39;h.txt&#39;,&#39;rb&#39;).read()
b&#39;\xff\xfeb\x00b\x00b\x00&#39;
>>> open(&#39;hh.txt&#39;,&#39;w&#39;,encoding=&#39;utf-16-be&#39;).write(&#39;ccc&#39;)
3
>>> open(&#39;hh.txt&#39;,&#39;rb&#39;).read()
b&#39;\x00c\x00c\x00c&#39;
>>> open(&#39;h.txt&#39;,&#39;w&#39;,encoding=&#39;utf-8&#39;).write(&#39;ddd&#39;)
3
>>> open(&#39;h.txt&#39;,&#39;rb&#39;).read()
b&#39;ddd&#39;

Nach dem Login kopieren

Regeln beim Lesen

Wenn die richtige Kodierung angegeben ist, wird die Stückliste ignoriert, andernfalls , wird die Stückliste als verstümmelte Zeichen angezeigt oder es wird eine Ausnahme zurückgegeben.

>>> open(&#39;h.txt&#39;,&#39;r&#39;).read()
&#39;锘縟dd&#39;
>>> open(&#39;h.txt&#39;,&#39;r&#39;,encoding=&#39;utf-8-sig&#39;).read()
&#39;ddd&#39;

Nach dem Login kopieren

Kodierung und Dekodierung

chr und ord

>>> ord(&#39;中&#39;) #20013
>>> chr(20013) #&#39;中&#39;

Nach dem Login kopieren

Unicode fest in die Zeichenfolge codieren.

'xhh': Verwenden Sie zweistellige Hexadezimalzahlen, um ein Zeichen darzustellen.

'uhhhh': Verwenden Sie vierstellige Hexadezimalzahlen, um ein Zeichen darzustellen. Zeichen:

'Uhhhhhhhh': Verwenden Sie 8-stelliges Hexadezimal, um ein Zeichen darzustellen

>>> s = 'pyx74hu4e2don' #'pyth中on'

str und bytes, Bytearray konvertieren

str.encode(encoding='utf-8')<code>str.encode(encoding='utf-8')<br/>

bytes(s ,encoding='utf- 8')<code>bytes(s,encoding='utf-8')<br/>

bytes.decode(encoding='utf-8')<code>bytes.decode(encoding='utf-8')<br/>

str(B, encoding='utf-8')

bytearray(string, encoding='utf-8')

bytearray(bytes)

Dokumentkodierungserklärung

Python verwendet utf-8 Codierung standardmäßig.

# -*- coding: latin-1 -*- : Zeigt an, dass das Dokument als Latin-1-codiert deklariert ist.

Hilfsfunktion

sys.platform  #&#39;win32&#39;
sys.getdefaultencoding() # &#39;utf-8&#39;
sys.byteorder  #&#39;little&#39;
s.isalnum()  #s表示字符串
s.isalpha()
s.isdecimal
s.isdigit()
s.isnumeric()
s.isprintable()
s.isspace()
s.isidentifier() #如果字符串可以用作变量名，那么返回True
s.islower()
s.isupper()
s.istitle()

Nach dem Login kopieren

Detailliertere Erläuterungen zu String-Operationen und der Codierung von Unicode in Python For Verwandte Artikel, achten Sie bitte auf die chinesische PHP-Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vor By DDD

<🎜>: Dead Rails - wie man jede Herausforderung abschließt

4 Wochen vor By DDD

Atomfall Guide: Gegenstandsstandorte, Questführer und Tipps

1 Monate vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7677

CakePHP-Tutorial

1393

C#-Tutorial

1207

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

Related knowledge

Wie löste ich das Problem der Berechtigungen beim Betrachten der Python -Version in Linux Terminal? Apr 01, 2025 pm 05:09 PM

Lösung für Erlaubnisprobleme beim Betrachten der Python -Version in Linux Terminal Wenn Sie versuchen, die Python -Version in Linux Terminal anzuzeigen, geben Sie Python ein ...

Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer-Anfänger-Programmierbasis in Projekt- und problemorientierten Methoden? Apr 02, 2025 am 07:18 AM

Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer -Anfänger für Programmierungen? Wenn Sie nur 10 Stunden Zeit haben, um Computer -Anfänger zu unterrichten, was Sie mit Programmierkenntnissen unterrichten möchten, was würden Sie dann beibringen ...

Wie kann man vom Browser vermeiden, wenn man überall Fiddler für das Lesen des Menschen in der Mitte verwendet? Apr 02, 2025 am 07:15 AM

Wie kann man nicht erkannt werden, wenn Sie Fiddlereverywhere für Man-in-the-Middle-Lesungen verwenden, wenn Sie FiddLereverywhere verwenden ...

Wie kann ich die gesamte Spalte eines Datenrahmens effizient in einen anderen Datenrahmen mit verschiedenen Strukturen in Python kopieren? Apr 01, 2025 pm 11:15 PM

Bei der Verwendung von Pythons Pandas -Bibliothek ist das Kopieren von ganzen Spalten zwischen zwei Datenrahmen mit unterschiedlichen Strukturen ein häufiges Problem. Angenommen, wir haben zwei Daten ...

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen ohne Serving_forver () an? Apr 01, 2025 pm 10:51 PM

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen an? Uvicorn ist ein leichter Webserver, der auf ASGI basiert. Eine seiner Kernfunktionen ist es, auf HTTP -Anfragen zu hören und weiterzumachen ...

Wie erstelle ich dynamisch ein Objekt über eine Zeichenfolge und rufe seine Methoden in Python auf? Apr 01, 2025 pm 11:18 PM

Wie erstellt in Python ein Objekt dynamisch über eine Zeichenfolge und ruft seine Methoden auf? Dies ist eine häufige Programmieranforderung, insbesondere wenn sie konfiguriert oder ausgeführt werden muss ...

Wie löste ich Berechtigungsprobleme bei der Verwendung von Python -Verssionsbefehl im Linux Terminal? Apr 02, 2025 am 06:36 AM

Verwenden Sie Python im Linux -Terminal ...

Wie behandle ich die mit Kommas getrennten Listen-Abfrageparameter in Fastapi? Apr 02, 2025 am 06:51 AM

Fastapi ...

See all articles