Wie stelle ich beim Lesen und Schreiben von Dateien in Python eine korrekte Unicode-Darstellung sicher?-Python-Tutorial-php.cn

Wie stelle ich beim Lesen und Schreiben von Dateien in Python eine korrekte Unicode-Darstellung sicher?

Barbara Streisand

Freigeben： 2024-11-05 16:13:02

Original

411 Leute haben es durchsucht

How do I ensure correct Unicode representation when reading and writing files in Python?

Unicode (UTF-8) Lesen und Schreiben in Dateien in Python

Bei der Arbeit mit Unicode-Strings in Python ist es wichtig, die zu verstehen Zusammenspiel zwischen Unicode-Darstellungen und Dateikodierung. Ein subtiles Missverständnis kann zu unerwarteten Ergebnissen führen, wie das folgende Beispiel zeigt:

<code class="python">ss = u'Capit\xe1n'
ss8 = ss.encode('utf8')
repr(ss), repr(ss8)</code>

Nach dem Login kopieren

Die Ausgabe zeigt eine Diskrepanz zwischen der Unicode-Darstellung der Zeichenfolge und ihrer UTF-8-codierten Form:

("u'Capit\xe1n'", "'Capit\xc3\xa1n'")

Nach dem Login kopieren

Um diese Verwirrung zu vermeiden, ist es wichtig, die Dateikodierung beim Lesen und Schreiben explizit anzugeben. In Python 2.6 und höher stellt das io-Modul eine io.open-Funktion bereit, die die Angabe der Kodierung ermöglicht:

<code class="python">import io

f = io.open("test", mode="r", encoding="utf-8")
f.read()</code>

Nach dem Login kopieren

Mit diesem Ansatz gibt f.read() ein dekodiertes Unicode-Objekt zurück:

u'Capit\xe1l\n\n'

Nach dem Login kopieren

In Python 3.x ist die Funktion io.open ein Alias für die integrierte Open-Funktion, die auch das Codierungsargument unterstützt. Eine andere Möglichkeit ist die Verwendung des Codecs-Moduls:

<code class="python">import codecs

f = codecs.open("test", "r", "utf-8")
f.read()</code>

Nach dem Login kopieren

Beachten Sie jedoch, dass das Mischen von read() und readline() bei der Verwendung des Codecs-Moduls zu Problemen führen kann. Durch die explizite Angabe der Kodierung beim Lesen und Schreiben von Dateien stellen Sie sicher, dass Unicode-Zeichenfolgen korrekt dargestellt und dekodiert werden, und vermeiden so potenzielle Fallstricke.

Das obige ist der detaillierte Inhalt vonWie stelle ich beim Lesen und Schreiben von Dateien in Python eine korrekte Unicode-Darstellung sicher?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!