Python mempunyai empat kaedah untuk membaca bahasa Cina: membaca terus, menentukan pengekodan, memproses aksara melarikan diri dan menggunakan perpustakaan pihak ketiga. Baca terus fail yang sesuai untuk pengekodan UTF-8 lalai, tentukan pengekodan untuk menentukan pengekodan bukan UTF-8, kendalikan aksara melarikan diri untuk mengendalikan aksara melarikan diri dan perpustakaan pihak ketiga boleh mengesan pengekodan fail secara automatik.
Cara membaca bahasa Cina dalam Python
Bacaan terus:
Pengekodan Unicode disokong secara lalai dalam Python 3, jadi fail Cina boleh dibaca terus.
<code class="python">with open('test.txt', 'r', encoding='utf-8') as f: text = f.read() print(text)</code>
Nyatakan pengekodan:
Jika fail itu bukan pengekodan UTF-8 lalai, anda perlu menentukan format pengekodan yang betul.
<code class="python">with open('test.txt', 'r', encoding='gbk') as f: text = f.read() print(text)</code>
Memproses aksara melarikan diri:
Jika fail Cina mengandungi aksara melarikan diri (contohnya, uxxxx
), anda perlu menggunakan modul codec
untuk pemprosesan. uxxxx
),需要使用codecs
模块进行处理。
<code class="python">import codecs with codecs.open('test.txt', 'r', encoding='utf-8') as f: text = f.read() print(text)</code>
使用第三方库:
一些第三方库,如chardet
和universal-encoding-detector
<code class="python">import chardet with open('test.txt', 'rb') as f: text = f.read() encoding = chardet.detect(text)['encoding'] print(encoding)</code>
Gunakan perpustakaan pihak ketiga:
Sesetengah perpustakaan pihak ketiga, sepertichardet
dan universal-encoding-detector
, boleh mengesan pengekodan fail secara automatik. Atas ialah kandungan terperinci Bagaimana untuk membaca bahasa Cina dalam python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!