Bagaimanakah saya membaca dan menulis teks Unicode (UTF-8) ke fail dalam Python?

Linda Hamilton
Lepaskan: 2024-11-05 12:33:02
asal
268 orang telah melayarinya

How do I read and write Unicode (UTF-8) text to files in Python?

Unicode (UTF-8) Membaca dan Menulis ke Fail dalam Python

Memahami Pengekodan dan Penyahkodan

Dalam Python 2.4, teks Unicode mesti ditukar kepada rentetan bait sebelum menulis ke fail. Kaedah encode('utf8') boleh digunakan untuk mengekod rentetan Unicode kepada UTF-8. Untuk membaca kandungan fail sebagai objek Unicode, kaedah nyahkod('utf8') boleh digunakan.

Fail Perduaan dan Teks

Adalah penting untuk membezakan antara fail binari dan teks. Fail binari menyimpan data secara membuta tuli, manakala fail teks menganggap pengekodan aksara tertentu (biasanya UTF-8). Apabila menulis objek Unicode pada fail, adalah penting untuk menentukan pengekodan yang dikehendaki untuk mengelakkan sebarang salah tafsir.

Modul io

Modul io dalam Python 2.6 dan kemudiannya menyediakan fungsi io.open, yang membolehkan menentukan pengekodan fail semasa pembukaan. Menggunakan io.open, seseorang boleh terus membaca kandungan fail sebagai objek Unicode:

<code class="python">import io
f = io.open("test", mode="r", encoding="utf-8")
text = f.read()  # text is a Unicode object</code>
Salin selepas log masuk

Dalam Python 3.x, fungsi io.open ialah alias untuk fungsi terbuka terbina dalam, yang menyokong hujah pengekodan:

<code class="python">open("test", mode="r", encoding="utf-8")  # returns a Unicode-reading file object</code>
Salin selepas log masuk

Modul codec

Pilihan lain ialah menggunakan fungsi terbuka daripada modul codec:

<code class="python">import codecs
f = codecs.open("test", "r", "utf-8")
text = f.read()  # text is a Unicode object</code>
Salin selepas log masuk

Walau bagaimanapun, perlu diperhatikan bahawa menggunakan codecs.open boleh membawa kepada isu apabila mencampurkan operasi read() dan readline().

Peranan Pengekodan UTF-8

UTF-8 ialah pengekodan aksara serba boleh yang menyokong julat luas daripada aksara bahasa. Secara lalai, Python menganggap fail sebagai aliran binari. Menentukan pengekodan secara eksplisit membolehkan Python mentafsir kandungan fail sebagai Unicode dengan betul, mengelakkan isu dengan tafsiran aksara.

Kesimpulan

Memahami konsep pengekodan dan penyahkodan serta menggunakan alatan yang sesuai (io.open atau codecs.open) apabila bekerja dengan teks Unicode dalam fail adalah penting untuk manipulasi data yang lancar dalam Python.

Atas ialah kandungan terperinci Bagaimanakah saya membaca dan menulis teks Unicode (UTF-8) ke fail dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan