Python には、中国語を読み取るための 4 つの方法があります。直接読み取り、エンコードの指定、エスケープ文字の処理、およびサードパーティ ライブラリの使用です。デフォルトの UTF-8 エンコーディングに適したファイルを直接読み取り、エンコーディングを指定して非 UTF-8 エンコーディングを指定し、エスケープ文字を処理してエスケープ文字を処理し、サードパーティ ライブラリはファイル エンコーディングを自動的に検出できます。
Python で中国語を読む方法
直接読む:
Python 3 はデフォルトで Unicode エンコードをサポートしているため、中国語ファイルを直接読み取ることができます。
with open('test.txt', 'r', encoding='utf-8') as f: text = f.read() print(text)
エンコーディングを指定:
ファイルがデフォルトの UTF-8 エンコーディングではない場合は、正しいエンコーディング形式を指定する必要があります。
with open('test.txt', 'r', encoding='gbk') as f: text = f.read() print(text)
エスケープ文字の処理:
中国語ファイルにエスケープ文字 (\uxxxx
など) が含まれている場合は、## を使用する必要があります。 #codecs 処理用のモジュール。
import codecs with codecs.open('test.txt', 'r', encoding='utf-8') as f: text = f.read() print(text)
サードパーティ ライブラリを使用する:
chardet ファイルのエンコード形式が、コードで指定されているエンコード形式と一致していることを確認してください。 以上がPythonで中国語を読む方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。 や
universal-encoding-detector# などの一部のサードパーティ ライブラリ##、ファイルのエンコードを自動検出できます。 import chardet
with open('test.txt', 'rb') as f:
text = f.read()
encoding = chardet.detect(text)['encoding']
print(encoding)